Notícias

Efficient-Alignment-of-Large-Language-Models-Using-Token-Level-Reward-Guidance-with-GenARM

GenARM: Um Quadro de Alinhamento para Modelos de Linguagem de Grande Escala

“`markdown

Introdução ao Alinhamento de Modelos de Linguagem de Grande Escala

Os Modelos de Linguagem de Grande Escala (LLMs) devem estar alinhados com as preferências humanas, como a utilidade e a inofensividade, para garantir que sejam úteis e seguros. No entanto, os métodos tradicionais de alinhamento exigem retratamento custoso e lutam com preferências dinâmicas ou conflitantes. As abordagens de alinhamento no tempo de teste que usam modelos de recompensa (RMs) evitam o retratamento, mas enfrentam ineficiências devido à dependência de recompensas ao nível de trajetória, que avaliam respostas completas em vez de orientar a geração token a token.

Técnicas de Alinhamento Existente

As técnicas de alinhamento existentes se enquadram em duas categorias: métodos de tempo de treinamento, como Aprendizado por Reforço com Feedback Humano (RLHF) e Otimização Direta de Preferência (DPO), que ajustam os LLMs em conjuntos de dados de preferência, mas exigem recursos computacionais significativos e carecem de flexibilidade para novas preferências; e métodos de tempo de teste, que usam RMs para orientar LLMs congelados, mas dependem de RMs ao nível de trajetória que atribuem uma única recompensa a respostas completas.

GenARM: Um Quadro de Alinhamento para Modelos de Linguagem de Grande Escala

Para abordar essas questões, pesquisadores da Universidade de Maryland, College Park e JPMorgan AI Research propõem GenARM (Geração Orientada por Recompensa com Modelo de Recompensa Autoregressivo), um quadro de alinhamento no tempo de teste que combina um novo modelo de recompensa autoregressivo com decodificação orientada. A inovação chave é o Modelo de Recompensa Autoregressivo, que decomponde recompensas ao nível de trajetória em componentes ao nível de token. Em vez de atribuir uma única recompensa a uma resposta completa, ele prevê a recompensa para cada token condicionado a tokens anteriores, permitindo orientação densa e passo a passo.

Vantagens de GenARM

GenARM oferece várias vantagens em relação às abordagens existentes. Ele elimina a necessidade de retratamento custoso de LLMs, suporta adaptação dinâmica a preferências diversas e escala eficientemente para modelos maiores. Além disso, GenARM permite orientação precisa ao nível de token, o que é particularmente útil em cenários com recursos limitados.

Experimentos e Resultados

Experimentos demonstram as vantagens de GenARM em três cenários: Alinhamento de Preferência Humana Geral, Orientação Fraca para Forte e Alinhamento Multi-Objetivo. Em todos os casos, GenARM supera as linhas de base de tempo de teste e iguala ou supera o desempenho de métodos de tempo de treinamento.

Conclusão

Em resumo, GenARM preenche a lacuna entre o alinhamento de tempo de treinamento e o alinhamento de tempo de teste, introduzindo modelos de recompensa autoregressivos que permitem orientação precisa ao nível de token. Ele oferece uma solução prática para alinhar LLMs em cenários com recursos limitados e pode ser estendido a tarefas como raciocínio matemático ou geração de código, onde recompensas ao nível de token podem melhorar o desempenho sem ajustes adicionais.

## Aprofundando no GenARM

O GenARM, como framework de alinhamento, se destaca por sua capacidade de decompor recompensas em nível de trajetória em componentes de nível de token. Essa abordagem granular permite um controle mais preciso do processo de geração de texto, resultando em um alinhamento mais efetivo com as preferências humanas e outros critérios desejados. Vamos explorar em mais detalhes os componentes e mecanismos que tornam o GenARM uma ferramenta poderosa.

### Modelo de Recompensa Autorregressivo (ARM)

O coração do GenARM é o Modelo de Recompensa Autorregressivo (ARM). Diferentemente dos modelos de recompensa tradicionais, que avaliam a qualidade de uma resposta completa, o ARM atribui uma recompensa a cada token gerado, levando em consideração o contexto dos tokens anteriores. Essa abordagem autorregressiva é fundamental para a capacidade do GenARM de fornecer orientação em tempo real durante a geração do texto.

O ARM é treinado em um conjunto de dados de preferências humanas ou outros critérios de avaliação. Ele aprende a prever a recompensa de um token específico, dado o prompt inicial e a sequência de tokens gerados até o momento. Essa previsão é baseada em padrões e relações identificados no conjunto de dados de treinamento.

### Decodificação Orientada

A decodificação orientada é o mecanismo que utiliza as recompensas fornecidas pelo ARM para influenciar a geração do texto. Durante a geração, o GenARM emprega um algoritmo de decodificação que considera não apenas a probabilidade de cada token com base no modelo de linguagem, mas também a recompensa prevista pelo ARM para aquele token.

Existem diferentes estratégias de decodificação que podem ser usadas com o GenARM. Uma abordagem comum é a amostragem ponderada, onde a probabilidade de cada token é ajustada com base na recompensa do ARM. Tokens com recompensas mais altas têm maior probabilidade de serem selecionados, enquanto tokens com recompensas baixas têm sua probabilidade reduzida. Outra abordagem é a busca em feixe, que mantém um conjunto de sequências de tokens candidatas e seleciona as sequências com maior recompensa acumulada.

### Aplicações e Extensões

O GenARM demonstra sua versatilidade em diversas aplicações, incluindo:

* **Alinhamento de Preferência Humana:** O GenARM pode ser usado para alinhar LLMs com as preferências humanas, garantindo que as respostas geradas sejam úteis, inofensivas e relevantes.
* **Orientação Fraca para Forte:** O GenARM pode ser aplicado para melhorar o desempenho de modelos menores (fracos) utilizando a orientação de modelos maiores (fortes).
* **Alinhamento Multi-Objetivo:** O GenARM é capaz de lidar com múltiplos objetivos de alinhamento simultaneamente, como utilidade, inofensividade e estilo.
* **Raciocínio Matemático e Geração de Código:** O GenARM pode ser estendido para tarefas que exigem raciocínio lógico e precisão, como a resolução de problemas matemáticos e a geração de código.

O framework GenARM representa um avanço significativo no campo do alinhamento de modelos de linguagem. Sua capacidade de fornecer orientação em nível de token, combinada com sua flexibilidade e eficiência, o torna uma ferramenta valiosa para garantir que os LLMs sejam úteis, seguros e alinhados com os valores humanos. A pesquisa continua a explorar o potencial do GenARM e suas aplicações em diversos domínios, prometendo avanços ainda maiores na interação entre humanos e inteligência artificial.
“`