“`markdown
Introdução à Autoregressão
A autoregressão é um conceito fundamental em modelos de linguagem, especialmente em LLMs (Modelos de Linguagem Grande). Em sua essência, um LLM é um modelo probabilístico treinado para gerar texto um token de cada vez. Dado um contexto de entrada, o modelo prevê o token mais provável a seguir, o alimenta novamente na sequência original e repete o processo iterativamente até que uma condição de parada seja atendida. Isso permite que o modelo gere qualquer coisa, desde respostas curtas até artigos inteiros.
Os Erros de Geração Compõem-se Exponencialmente?
O argumento de LeCun pode ser desmembrado da seguinte forma: defina C como o conjunto de todas as possíveis conclusões de comprimento N. Defina A ⊂ C como o subconjunto de conclusões aceitáveis, onde U = C – A representa as inaceitáveis. Seja Ci[K] uma conclusão em andamento de comprimento K, que em K ainda é aceitável (Ci[N] ∈ A pode ainda ser aplicado no final). Suponha uma constante E como a probabilidade de erro de gerar o próximo token, de modo que ele leve Ci para U. A probabilidade de gerar os tokens restantes enquanto mantém Ci em A é então (1 – E)^(N – K).
Por que essa Suposição é Falha
Os LLMs exibem propriedades de autocorreção que os impedem de mergulhar na incoerência. Considere as técnicas de Chain-of-Thought (CoT) (Cadeia de Pensamento), que encoraja o modelo a gerar etapas de raciocínio intermediário. CoT permite que o modelo considere múltiplas perspectivas, melhorando sua capacidade de convergir para uma resposta aceitável. Da mesma forma, a Chain-of-Verification (CoV) (Cadeia de Verificação) e os mecanismos de feedback estruturados, como os ARQs (Attentive Reasoning Queries) (Consultas de Raciocínio Atentas), orientam o modelo a reforçar saídas válidas e descartar as errôneas.
As Consultas de Raciocínio Atentas (ARQs) são um Fator de Mudança
Na Parlant, estamos levando esse princípio adiante em nosso trabalho com as Consultas de Raciocínio Atentas (um artigo de pesquisa descrevendo nossos resultados está em andamento, mas o padrão de implementação pode ser explorado em nossa base de código de código aberto). As ARQs introduzem esquemas de raciocínio que ajudam o modelo a manter a coerência ao longo de conclusões longas, refocando dinamicamente a atenção em instruções-chave em pontos estratégicos do processo de conclusão, continuamente impedindo que os LLMs se desviem para a incoerência. Usando-as, conseguimos manter um grande conjunto de testes que exibe quase 100% de consistência na geração de conclusões corretas para tarefas complexas.
Conclusão
Pensamos que os LLMs autoregressivos estão longe de estar condenados. Embora a coerência em longo prazo seja um desafio, supor uma taxa de erro composta exponencialmente ignora mecanismos-chave que mitigam a divergência – desde o raciocínio em cadeia de pensamento até o raciocínio estruturado, como as ARQs. Com a ajuda dessas técnicas, podemos criar modelos de linguagem mais precisos e confiáveis, capazes de gerar respostas coerentes e úteis para uma variedade de tarefas.
“`