Introdução à Quantização Pós-Treinamento (PTQ)
A Quantização Pós-Treinamento (PTQ) é uma técnica utilizada para reduzir o tamanho e melhorar a velocidade de grandes modelos de linguagem (LLMs) para torná-los mais práticos para uso no mundo real. Esses modelos exigem grandes volumes de dados, mas a distribuição de dados fortemente inclinada e altamente heterogênea durante a quantização apresenta consideráveis dificuldades. Isso inevitavelmente expandiria a faixa de quantização, tornando-a, na maioria dos valores, uma expressão menos precisa e reduzindo o desempenho geral na precisão do modelo.
Desafios na Quantização Pós-Treinamento (PTQ)
Os métodos de PTQ visam abordar essas questões, mas desafios permanecem na distribuição eficaz de dados em todo o espaço de quantização, limitando o potencial de otimização e dificultando uma implementação mais ampla em ambientes com recursos limitados. Atuais métodos de PTQ se concentram na quantização apenas de pesos e na quantização de pesos e ativações. Métodos apenas de pesos, como GPTQ, AWQ e OWQ, tentam reduzir o uso de memória minimizando erros de quantização ou lidando com outliers de ativação, mas falham em otimizar a precisão para todos os valores completamente.
QSUR e OSTQuant: Novas Abordagens para a Quantização Pós-Treinamento (PTQ)
Para abordar as limitações dos métodos heurísticos de PTQ e a falta de uma métrica para avaliar a eficiência da quantização, pesquisadores da Houmo AI, Nanjing University e Southeast University propuseram o conceito de Taxa de Utilização do Espaço de Quantização (QSUR). A QSUR mede como as distribuições de pesos e ativações utilizam efetivamente o espaço de quantização, oferecendo uma base quantitativa para avaliar e melhorar os métodos de PTQ. Além disso, os pesquisadores propuseram o framework OSTQuant, que combina transformações ortogonais e de escalonamento para otimizar as distribuições de pesos e ativações de grandes modelos de linguagem.
Avaliação do OSTQuant
Para fins de avaliação, os pesquisadores aplicaram o OSTQuant na família LLaMA (LLaMA-1, LLaMA-2 e LLaMA-3) e avaliaram o desempenho usando perplexidade no WikiText2 e em nove tarefas de zero-shot. Em comparação com métodos como SmoothQuant, GPTQ, Quarot e SpinQuant, o OSTQuant consistentemente superou-os, alcançando pelo menos 99,5% de precisão de ponto flutuante sob a configuração 4-16-16 e reduzindo significativamente as lacunas de desempenho. Os resultados mostraram que o OSTQuant é mais eficaz no tratamento de outliers e garantindo que as distribuições sejam menos tendenciosas.
Conclusão
No final, o método proposto otimizou as distribuições de dados no espaço de quantização com base na métrica QSUR e na função de perda KL-Top, melhorando o desempenho de grandes modelos de linguagem. Com baixos dados de calibração, ele diminuiu o ruído e preservou a riqueza semântica em comparação com as técnicas de quantização existentes, alcançando um alto desempenho em vários benchmarks. Esse framework pode servir como base para trabalhos futuros, iniciando um processo que será instrumental para aperfeiçoar as técnicas de quantização e tornar os modelos mais eficientes para aplicações que exigem alta eficiência computacional em ambientes com recursos limitados.