Notícias

Otimização de Algoritmos de Alinhamento Direto para Modelos de Linguagem

Introdução ao Alinhamento Direto de Modelos de Linguagem

O alinhamento de grandes modelos de linguagem (LLMs) com valores humanos continua sendo um desafio devido a metas pouco claras, sinais de treinamento fracos e a complexidade da intenção humana. Algoritmos de Alinhamento Direto (DAAs) oferecem uma forma de simplificar esse processo, otimizando modelos diretamente sem depender de modelagem de recompensa ou aprendizado por reforço. Esses algoritmos usam diferentes métodos de classificação, como comparar pares de saídas ou pontuar respostas individuais. Algumas versões também requerem uma etapa adicional de fine-tuning supervisionado (SFT), enquanto outras não.

Desafios no Alinhamento de Modelos de Linguagem

Atualmente, os métodos para alinhar grandes modelos de linguagem (LLMs) seguem várias etapas, incluindo fine-tuning supervisionado (SFT), modelagem de recompensa e aprendizado por reforço. Esses métodos introduzem desafios devido à sua complexidade, dependência de modelos de recompensa e alto custo computacional. DAAs tentam otimizar os modelos a partir de preferências humanas diretamente, contornando o aprendizado por reforço e a modelagem de recompensa. Diferentes formas de DAAs podem variar em seu método de otimização, funções de perda e método de fine-tuning.

Melhorias nos Algoritmos de Alinhamento Direto

Para melhorar algoritmos de alinhamento direto de uma única etapa (DAAs) como ORPO e ASFT, pesquisadores propuseram adicionar uma fase de fine-tuning supervisionado (SFT) separada e introduzir um parâmetro de escalonamento (β). Esses métodos originalmente não foram fornecidos com um parâmetro β e fizeram o alinhamento diretamente. Como tal, eles eram menos eficazes. Incluir uma fase de SFT explícita e permitir que β controle a escalonamento de preferência fornece a esses métodos um desempenho comparável a abordagens de duas etapas, como DPO.

Análise Experimental e Resultados

A análise experimental sugere que DAAs que dependem de comparações em pares superam aqueles que dependem de preferências pontuais, justificando assim sinais de classificação estruturados na qualidade do alinhamento. Pesquisadores avaliaram Algoritmos de Alinhamento Direto (DAA) usando Llama 3.1 8B no UltraChat e nos conjuntos de dados UF, testando no AlpacaEval 2 e no ArenaHard, enquanto Llama 3.2 3B foi usado para Reddit TL; DR. O fine-tuning supervisionado (SFT) no UF melhorou o alinhamento de ORPO e ASFT.

Conclusão e Futuras Pesquisas

No final, o método proposto melhorou os Algoritmos de Alinhamento Direto (DAAs) incorporando uma fase de fine-tuning supervisionado (SFT). Isso levou a ganhos de desempenho consistentes e melhorou significativamente ORPO e ASFT. Embora a avaliação tenha sido realizada em conjuntos de dados específicos e tamanhos de modelo, os achados fornecem uma abordagem estruturada para melhorar o alinhamento do modelo. Esse método é uma base a ser usada como base para futuras pesquisas. Ele pode ser extrapolado para outros modelos maiores com conjuntos de dados mais diversificados para refinar as técnicas de alinhamento por meio de estratégias de otimização que identifiquem fatores na qualidade do alinhamento.

Israel Cavalcante

Sou um entusiasta de tecnologia com mais de 10 anos de experiência, formado em Direito pelo Ibmec Rio e candidato ao MBA em Management pela PUC-Rio. Fundador da Uncraft, e de outras empresas, uma plataforma de mídia digital 100% gerida por IA. Por aqui, combino inovação, automação e estratégia para transformar a criação de conteúdo.

Me mande um e-mail!