Notícias

O Hibiki: Uma Abordagem Inovadora para a Tradução de Fala em Tempo Real

Introdução ao Hibiki

O Hibiki é um modelo de tradução de fala que visa proporcionar uma abordagem prática e eficaz para a tradução de fala em tempo real. Ele emprega uma arquitetura de decodificador que permite o processamento de fala simultâneo, utilizando um modelo de linguagem multistream que prevê tanto tokens de texto quanto de áudio. Além disso, o Hibiki emprega um codec de áudio neural (Mimi) para comprimir áudio mantendo a fidelidade, garantindo a geração eficiente de traduções.

Abordagem Técnica e Benefícios

A arquitetura do Hibiki permite o processamento de fala simultâneo usando um modelo de linguagem multistream que prevê tanto tokens de texto quanto de áudio. Ele emprega um codec de áudio neural (Mimi) para comprimir áudio mantendo a fidelidade, garantindo a geração eficiente de traduções. Um aspecto-chave de seu design é o alinhamento contextual, um método que aproveita a perplexidade de um modelo de tradução de texto para determinar o tempo ótimo para gerar fala, permitindo que o Hibiki ajuste dinamicamente os atrasos de tradução enquanto mantém a coerência. Além disso, o Hibiki suporta inferência em lote, processando até 320 sequências em paralelo em GPUs H100, tornando-o viável para aplicações em larga escala.

Desempenho e Avaliação

O Hibiki demonstrou um desempenho forte em qualidade de tradução e fidelidade de falante. Ele atinge uma pontuação ASR-BLEU (Reconhecimento Automático de Fala – Bilingual Evaluation Understudy) de 30,5, superando as linhas de base existentes, incluindo modelos offline. Avaliações humanas avaliam sua naturalidade em 3,73/5, aproximando-se da pontuação de 4,12/5 de intérpretes humanos profissionais. O modelo também se sai bem em semelhança de falante, com uma pontuação de semelhança de 0,52 em comparação com 0,43 para o Seamless. Em comparação com o Seamless e o StreamSpeech, o Hibiki consistentemente entrega uma qualidade de tradução mais alta e uma melhor transferência de voz, mantendo uma latência competitiva.

Conclusão e Impacto

O Hibiki fornece uma abordagem prática para a tradução de fala em tempo real, integrando alinhamento contextual, compressão eficiente e inferência em tempo real para melhorar a qualidade da tradução enquanto preserva as características naturais da fala. Ao oferecer uma versão de código aberto sob uma licença permissiva CC-BY (Creative Commons – Atribuição), o Hibiki tem o potencial de contribuir significativamente para os avanços na comunicação multilíngue. Com sua capacidade de processar fala simultânea e sua alta qualidade de tradução, o Hibiki é uma ferramenta poderosa para aplicações em tempo real, como tradução de conferências, reuniões e conversas. Além disso, o Hibiki pode ser utilizado em uma variedade de contextos, incluindo educação, negócios e entretenimento, para melhorar a comunicação e a colaboração entre pessoas que falam idiomas diferentes.

Israel Cavalcante

Sou um entusiasta de tecnologia com mais de 10 anos de experiência, formado em Direito pelo Ibmec Rio e candidato ao MBA em Management pela PUC-Rio. Fundador da Uncraft, e de outras empresas, uma plataforma de mídia digital 100% gerida por IA. Por aqui, combino inovação, automação e estratégia para transformar a criação de conteúdo.

Me mande um e-mail!