O Desafio dos Dados de Instrução em Modelos de Linguagem Multimodal
O aumento de aplicações multimodais destacou a importância dos dados de instrução no treinamento de Modelos de Linguagem Multimodal (MLMs) para lidar com consultas baseadas em imagens complexas de forma eficaz.
No entanto, as práticas atuais para gerar esses dados dependem de Modelos de Linguagem Grande (LLMs) ou MLMs, que, apesar de sua eficácia, enfrentam vários desafios, incluindo altos custos, restrições de licenciamento e suscetibilidade a alucinações.
A Necessidade de um Novo Enfoque
Os recentes avanços em MLMs, como os modelos LLaVA e InstructBLIP, aproveitaram dados multimodais para alcançar resultados notáveis em tarefas de linguagem visual.
No entanto, apesar do progresso significativo, esses modelos frequentemente têm desempenho abaixo do esperado em tarefas específicas de visão, como estimativa de profundidade e localização, devido à limitada disponibilidade de dados de instrução para essas tarefas.
O Sistema PROVISION
Pesquisadores da Universidade de Washington, Salesforce Research e da Universidade do Sul da Califórnia introduziram o PROVISION, um sistema programático escalável que usa grafos de cena como representações simbólicas de imagens para gerar dados de instrução centrados em visão.
Combinando programas escritos por humanos com grafos de cena criados automaticamente ou manualmente, o PROVISION garante interpretabilidade, precisão e escalabilidade, evitando alucinações e restrições de licenciamento comuns em métodos impulsionados por LLM/MLM.
Os Resultados do PROVISION
O sistema gera mais de 10 milhões de pontos de dados (PROVISION-10M) a partir do Visual Genome e DataComp, cobrindo tarefas diversificadas como consultas baseadas em objetos, atributos e profundidade.
Esses dados melhoram o desempenho do MLM, resultando em ganhos de até 8% em benchmarks como CVBench, QBench2 e Mantis-Eval em estágios de pré-treinamento e ajuste fino.
Conclusão
O sistema PROVISION gera dados de instrução centrados em visão para MLMs usando representações de grafos de cena e programas escritos por humanos.
Aplicado ao Visual Genome e DataComp, cria o PROVISION-10M, um conjunto de dados com mais de 10 milhões de instruções, melhorando o desempenho do MLM durante o pré-treinamento e o ajuste de instrução.
O sistema usa 24 geradores de instrução para imagens únicas e 14 para imagens múltiplas, produzindo consultas diversificadas sobre objetos, atributos e relações.
O PROVISION alcança até 8% de desempenho em benchmarks como CVBench e Mantis-Eval, demonstrando a eficácia dos grafos de cena para criar instruções úteis, sejam elas reais ou geradas automaticamente.