Introdução à Tokenização em Modelos de Linguagem
A tokenização desempenha um papel fundamental no desempenho e escalabilidade dos Modelos de Linguagem Grande (LLMs, ou Large Language Models). Apesar de ser um componente crítico, sua influência no treinamento do modelo e na eficiência permanece subexplorada. Embora vocabulários maiores possam compressar sequências e reduzir custos computacionais, as abordagens existentes ligam os vocabulários de entrada e saída, criando trade-offs onde os benefícios de escalabilidade beneficiam modelos maiores, mas prejudicam os menores.
Desacoplando a Tokenização de Entrada e Saída
Este artigo apresenta um framework chamado Transformadores com Tokenização Excessiva que reimagina o design do vocabulário, desacoplando a tokenização de entrada e saída, liberando novos caminhos para a eficiência e o desempenho do modelo. Os métodos tradicionais de tokenização usam vocabulários idênticos para o processamento de entrada e a previsão de saída. Embora vocabulários maiores permitam que os modelos processem sequências de n-gramas mais longas (por exemplo, sequências de vários caracteres), eles forçam os modelos menores a lidar com previsões de saída excessivamente granulares, aumentando os riscos de subajuste.
Over-Tokenized Transformers
A equipe de pesquisa identificou uma percepção crítica por meio de experimentos sintéticos com gramáticas livres de contexto: os vocabulários de entrada e saída influenciam os modelos de forma diferente. Vocabulários de entrada maiores melhoraram consistentemente todos os tamanhos de modelo, enriquecendo as representações de contexto por meio de embeddings de multi-gramas. Por outro lado, vocabulários de saída maiores introduziram tarefas de previsão granular que beneficiaram apenas modelos suficientemente grandes. Essa dicotomia motivou o framework Over-Tokenized, que separa os vocabulários de codificação de entrada (Over-Encoding) e decodificação de saída (Over-Decoding).
Over-Encoding e Over-Decoding
O Over-Encoding (OE) escala os vocabulários de entrada exponencialmente, usando embeddings de multi-gramas hierárquicos. Em vez de um único ID de token, cada token de entrada é representado como a soma de embeddings de 1-, 2- e 3-gramas. Por exemplo, a palavra ‘gato’ pode se decompor em embeddings para ‘g’, ‘ga’ e ‘gato’, permitindo que o modelo capture pistas contextuais de multi-escala. O Over-Decoding (OD) aproxima vocabulários de saída maiores, prevendo vários tokens futuros sequencialmente, um aperfeiçoamento dos métodos MTP anteriores.
Resultados e Conclusão
Os pesquisadores realizaram experimentos nas arquiteturas OLMo e OLMoE e demonstraram três principais descobertas: Escalabilidade Log-Linear, Aceleração da Convergência e Eficiência de Parâmetro Esparsa. Em conclusão, este trabalho redefine a tokenização como uma dimensão escalável no design de modelos de linguagem. Desacoplando os vocabulários de entrada e saída, os Transformadores com Tokenização Excessiva quebram os trade-offs tradicionais, permitindo que modelos menores se beneficiem de sequências de entrada comprimidas sem lidar com tarefas de previsão excessivamente complexas. A relação log-linear entre o tamanho do vocabulário de entrada e o desempenho sugere que os parâmetros de embedding representam um novo eixo para as leis de escalabilidade, complementando o trabalho existente sobre a profundidade e largura do modelo.