Notícias

Laboratórios Intel Apresentam LoNAS: Uma Abordagem Híbrida para Compressão Eficiente de LLMs

Introdução à Abordagem LoNAS

Os Modelos de Linguagem Grandes (LLMs) têm se tornado fundamentais para várias aplicações de processamento de linguagem natural, incluindo tradução automática, resumo de textos e IA conversacional. No entanto, sua complexidade e tamanho crescentes têm levado a desafios significativos de eficiência computacional e consumo de memória. À medida que esses modelos crescem, a demanda de recursos os torna difíceis de implantar em ambientes com capacidades computacionais limitadas.

Desafios com LLMs

O principal obstáculo com LLMs reside em suas enormes necessidades computacionais. O treinamento e o ajuste fino desses modelos envolvem bilhões de parâmetros, tornando-os intensivos em recursos e limitando seu acesso. Métodos existentes para melhorar a eficiência, como o ajuste fino de parâmetros eficientes (PEFT), oferecem algum alívio, mas frequentemente comprometem o desempenho. O desafio é encontrar uma abordagem que possa reduzir significativamente as demandas computacionais, mantendo a precisão e a eficácia do modelo em cenários do mundo real.

A Abordagem LoNAS

Pesquisadores dos Laboratórios Intel e da Intel Corporation introduziram uma abordagem que integra adaptação de baixa classificação (LoRA) com técnicas de pesquisa de arquitetura neural (NAS). Essa abordagem busca abordar as limitações das abordagens de ajuste fino tradicionais, melhorando a eficiência e o desempenho. A equipe de pesquisa desenvolveu um quadro que otimiza o consumo de memória e a velocidade computacional, aproveitando representações de baixa classificação estruturadas.

Funcionamento da Abordagem LoNAS

A metodologia introduzida pelos Laboratórios Intel gira em torno de LoNAS (Pesquisa de Arquitetura Neural de Baixa Classificação), que emprega adaptadores elásticos LoRA para ajuste fino do modelo. Ao contrário das abordagens convencionais que exigem o ajuste fino completo dos LLMs, LoNAS permite a ativação seletiva de subestruturas do modelo, reduzindo a redundância. A inovação-chave reside na flexibilidade dos adaptadores elásticos, que se ajustam dinamicamente com base nas necessidades do modelo.

Resultados e Análise

A avaliação do desempenho do método proposto destaca suas melhorias significativas em relação às técnicas convencionais. Os resultados experimentais indicam que LoNAS alcança uma aceleração de inferência de até 1,4x, enquanto reduz os parâmetros do modelo em aproximadamente 80%. Ao ser aplicado ao ajuste fino de LLaMA-7B em um conjunto de dados de raciocínio comum unificado de 15k, LoNAS demonstrou uma pontuação de precisão média de 65,8%.

Extensões e Otimizações

Melhorias adicionais no quadro incluem a introdução de Shears, uma estratégia de ajuste fino avançada que se baseia em LoNAS. Shears utilizam uma pesquisa de adaptador de baixa classificação neural (NLS) para restringir a elasticidade ao posto do adaptador, reduzindo cálculos desnecessários. Outra extensão, SQFT, incorpora esparsidade e baixa precisão numérica para ajuste fino aprimorado. Essas refinadas destacam a adaptabilidade de LoNAS e seu potencial para otimização adicional.

Conclusão

Integrar LoRA e NAS oferece uma abordagem transformadora para a otimização de modelos de linguagem grandes. Aproveitando representações de baixa classificação estruturadas, a pesquisa demonstra que a eficiência computacional pode ser significativamente melhorada sem comprometer o desempenho. O estudo conduzido pelos Laboratórios Intel confirma que combinar essas técnicas reduz a carga do ajuste fino, garantindo a integridade do modelo. Pesquisas futuras podem explorar otimizações adicionais, incluindo seleção de sub-rede aprimorada e estratégias heurísticas mais eficientes. Essa abordagem estabelece um precedente para tornar os LLMs mais acessíveis e implantáveis em ambientes diversos, pavimentando o caminho para modelos de IA mais eficientes.

Israel Cavalcante

Sou um entusiasta de tecnologia com mais de 10 anos de experiência, formado em Direito pelo Ibmec Rio e candidato ao MBA em Management pela PUC-Rio. Fundador da Uncraft, e de outras empresas, uma plataforma de mídia digital 100% gerida por IA. Por aqui, combino inovação, automação e estratégia para transformar a criação de conteúdo.

Me mande um e-mail!