Introdução ao Aprendizado por Reforço (RL)
O Aprendizado por Reforço (RL) é uma área de pesquisa que visa treinar agentes para maximizar recompensas interagindo com um ambiente. O RL online alterna entre realizar ações, coletar observações e recompensas e atualizar políticas usando essa experiência. No entanto, o RL baseado em modelo (MBRL) mitiga isso aprendendo um modelo de mundo (WM) para planejamento em um ambiente imaginado.
Desafios do Aprendizado por Reforço
Padrões de benchmark como Atari-100k testam a eficiência da amostra, mas sua natureza determinística permite a memorização em vez da generalização. Para incentivar habilidades mais amplas, os pesquisadores usam Crafter, um ambiente semelhante ao Minecraft 2D. Craftax-classic, uma versão baseada em JAX, introduz ambientes procedurais, observabilidade parcial e um sistema de recompensa esparsa, exigindo exploração profunda.
Métodos de Aprendizado por Reforço
Métodos MBRL variam com base em como os WMs são usados – para planejamento de fundo (treinamento de políticas com dados imaginados) ou planejamento de tempo de decisão (realizando buscas antecipadas durante a inferência). Como visto em MuZero e EfficientZero, o planejamento de tempo de decisão é eficaz, mas computacionalmente caro para grandes WMs como transformadores. O planejamento de fundo, originário do aprendizado Dyna-Q, foi aprimorado em modelos de RL profundos como Dreamer, IRIS e DART.
Avanços em Modelos de Mundo
Os WMs também diferem em capacidade geradora; embora os WMs não geradores sejam excelentes em eficiência, os WMs geradores integram melhor os dados reais e imaginados. Muitas arquiteturas modernas usam transformadores, embora os modelos de espaço de estado recorrentes, como DreamerV2/3, permaneçam relevantes. Pesquisadores da Google DeepMind introduzem um método MBRL avançado que estabelece um novo padrão no ambiente Craftax-classic, um jogo de sobrevivência 2D complexo que exige generalização, exploração profunda e raciocínio de longo prazo.
Resultados e Conclusão
Sua abordagem alcança uma recompensa de 67,42% após 1 milhão de passos, superando o DreamerV3 (53,2%) e o desempenho humano (65,0%). Eles aprimoram o MBRL com uma linha de base robusta e livre de modelo, ‘Dyna com aquecimento’ para rolagens reais e imaginadas, um tokenizer de vizinho mais próximo para processamento de imagem baseado em patches e forçamento de blocos de professor para previsão de token eficiente. Esses aprimoramentos coletivos melhoram a eficiência da amostra, alcançando o desempenho de ponta na RL eficiente em dados. Em conclusão, o estudo introduz três principais melhorias para agentes MBRL baseados em visão usando TWM para planejamento de fundo. Esses aprimoramentos incluem Dyna com aquecimento, tokenização de vizinho mais próximo baseada em patches e forçamento de blocos de professor. O agente MBRL proposto apresenta melhor desempenho no benchmark Craftax-classic, superando modelos e recompensas de especialistas humanos anteriores.