“`html
Introdução
Os mecanismos de busca e sistemas de recomendação são essenciais em plataformas de conteúdo online nos dias de hoje. As metodologias de busca tradicionais se concentram em conteúdo textual, criando uma lacuna crítica no tratamento de textos ilustrados e vídeos que se tornaram componentes cruciais das comunidades de Conteúdo Gerado por Usuário (UGC). Os conjuntos de dados atuais para tarefas de busca e recomendação contêm informações textuais ou recursos densos estatisticamente, limitando severamente o desenvolvimento de serviços de busca e recomendação (S&R) multimodais eficazes.
Abordagens Existente
As abordagens existentes tentaram resolver os desafios de recuperação multimodal. Abordagens baseadas em aprendizado de representação mapeiam imagens no espaço de Hamming binário usando funções de hash ou as codificam em espaços semânticos latentes com redes neurais profundas. Métodos conscientes de hash fornecem desempenho em tempo real eficiente com baixos custos de armazenamento, enquanto abordagens baseadas em semântica se concentram na compreensão de modalidade e correspondência entre modalidades.
Qilin: Um Conjunto de Dados Multimodal
Pesquisadores da Xiaohongshu Inc. e da Universidade de Tsinghua propuseram Qilin, um conjunto de dados de recuperação de informação multimodal projetado para atender à crescente necessidade de desenvolver melhores serviços de S&R. Coletado da Xiaohongshu, uma plataforma social popular com mais de 300 milhões de usuários ativos por mês e uma taxa de penetração de busca média superior a 70%, esse conjunto de dados oferece uma coleção de sessões de usuário com resultados heterogêneos, incluindo notas de imagem-texto, notas de vídeo, notas comerciais e respostas diretas.
Características do Conjunto de Dados Qilin
O conjunto de dados Qilin inclui sinais contextuais de nível de aplicativo extensivos e feedback de usuário genuíno para melhor modelar a satisfação do usuário e apoiar a análise de comportamentos de usuário heterogêneos. Ele contém exclusivamente respostas favoritas do usuário e os resultados referidos para solicitações de busca que disparam o módulo de Resposta de Consulta Profunda (DQA). Além disso, o conjunto de dados compreende sessões de nível de aplicativo de 15.482 usuários, significativamente maior e mais diverso do que os conjuntos de dados de busca e recomendação existentes.
Experimentos e Resultados
Os resultados para tarefas de busca e recomendação mostram que o codificador cruzado BERT supera o codificador bi, confirmando que a interação explícita de consulta e documento melhora a correspondência de relevância. Modelos de Língua-Visão (VLM) alcançam um desempenho ainda melhor incorporando informações visuais. DCN-V2, que combina histórico de usuário, recursos baseados em ID esparsos, recursos densos e embeddings semânticos pré-treinados, apresenta o melhor desempenho em ranqueamento de busca.
Conclusão
Em conclusão, os pesquisadores introduziram Qilin, um conjunto de dados de recuperação de informação multimodal para pesquisa de busca e recomendação. Composto por sessões de nível de aplicativo de 15.482 usuários, ele fornece conteúdo textual e de imagem para resultados heterogêneos, abordando lacunas críticas nos conjuntos de dados existentes. Os pesquisadores coletaram sinais contextuais abundantes, incluindo fontes de consulta, vários tipos de feedback de usuário e detalhes de resposta de consulta profunda (DQA), criando um quadro abrangente para investigar várias tarefas de recuperação de informação.
Experimentos preliminares em busca, recomendação e resposta de consulta profunda em Qilin mostram sua versatilidade e potenciais aplicações. Essas descobertas e insights fornecem uma direção valiosa para desenvolver sistemas de recuperação multimodal mais avançados. Além disso, o conjunto de dados Qilin pode ser utilizado para melhorar a compreensão de comportamentos de usuário e desenvolver modelos de recuperação de informação mais eficazes.
Confira o artigo e o conjunto de dados no Hugging Face. Todo o crédito por essa pesquisa vai para os pesquisadores deste projeto. Além disso, sinta-se à vontade para nos seguir no Twitter e não se esqueça de se juntar à nossa SubReddit de ML de 80k+.
Leitura Recomendada – LG AI Research Lança NEXUS: Um Sistema Avançado que Integra Sistema de Inteligência Artificial e Padrões de Conformidade de Dados para Abordar Preocupações Legais em Conjuntos de Dados de IA.
“`