Desafios na Compreensão de Imagens e Vídeos
Os modelos de linguagem multimodal de grande escala (MLLMs) conectam visão e linguagem, permitindo a interpretação eficaz de conteúdo visual. No entanto, alcançar uma compreensão precisa e escalável em nível de região para imagens estáticas e vídeos dinâmicos permanece um desafio.
Inconsistências Temporais e Limitações de Escalabilidade
Inconsistências temporais, ineficiências de escalabilidade e compreensão de vídeo limitada impedem o progresso, particularmente na manutenção de representações consistentes de objetos e regiões em todo o vídeo. O drift temporal, causado por movimento, escalas ou mudanças de perspectiva, combinado com a dependência de métodos computacionalmente pesados como caixas delimitadoras ou recursos alinhados com a Região de Interesse (RoI), aumenta a complexidade e limita a análise de vídeo em tempo real e em grande escala.
O Omni-RGPT: Uma Solução Inovadora
Pesquisadores da NVIDIA e da Universidade Yonsei desenvolveram o Omni-RGPT, um novo modelo de linguagem multimodal de grande escala projetado para alcançar uma compreensão em nível de região sem interrupções em imagens e vídeos. Este modelo apresenta o Token Mark, um método inovador que incorpora tokens específicos de região em prompts visuais e textuais, estabelecendo uma conexão unificada entre as duas modalidades.
O Token Mark e o RegVID-300k
O Token Mark substitui as abordagens tradicionais baseadas em RoI, definindo um token único para cada região-alvo, que permanece consistente em todo o vídeo. Essa estratégia evita o drift temporal e reduz os custos computacionais, permitindo um raciocínio robusto para entradas estáticas e dinâmicas. O RegVID-300k é um novo conjunto de dados de grande escala que contém 98.000 vídeos únicos, 214.000 regiões anotadas e 294.000 amostras de instruções em nível de região.
Resultados e Aplicações
O Omni-RGPT alcançou resultados de estado da arte em vários benchmarks, incluindo 84,5% de precisão no conjunto de dados Causal-VidQA. O modelo superou métodos existentes como o MotionEpic em mais de 5% em algumas subtarefas, demonstrando um desempenho superior em previsão e raciocínio contrafactual. O Omni-RGPT também se destacou em tarefas de legendagem de vídeo e raciocínio de senso comum visual.
Conclusão
Em conclusão, o Omni-RGPT aborda desafios críticos no aprendizado multimodal específico de região, introduzindo o Token Mark e um novo conjunto de dados para apoiar a compreensão detalhada em imagens e vídeos. O design escalável do modelo e seu desempenho de estado da arte em tarefas diversificadas estabelecem um novo padrão para o campo.