Dois estudantes universitários, mesmo sem vasta experiência prévia em inteligência artificial, anunciaram a criação de um modelo de IA open source chamado Dia, capaz de gerar clipes de áudio no estilo podcast, semelhante ao NotebookLM do Google. A novidade chega em um mercado aquecido de ferramentas de voz sintética, onde gigantes como ElevenLabs já atuam, mas com espaço crescente para novos desafiantes.
Toby Kim, um dos co-fundadores da Nari Labs, grupo sediado na Coreia por trás do modelo, revelou que ele e seu colega começaram a estudar IA de fala há apenas três meses. Inspirados pela ferramenta do Google, buscaram criar um modelo que oferecesse mais controle sobre as vozes geradas e maior liberdade na criação de roteiros.
Utilizando a infraestrutura do programa TPU Research Cloud do Google, que oferece acesso gratuito aos chips de IA da empresa, a Nari Labs treinou o Dia. Com 1.6 bilhão de parâmetros – variáveis internas que modelos usam para fazer previsões –, o Dia consegue gerar diálogos a partir de um roteiro, permitindo aos usuários personalizar o tom dos locutores e inserir hesitações, tosses, risadas e outras pistas não verbais.
Disponível nas plataformas de desenvolvimento de IA Hugging Face e GitHub, o Dia pode ser executado na maioria dos PCs modernos com pelo menos 10GB de VRAM. Embora gere uma voz aleatória por padrão, ele pode ser instruído a adotar um estilo específico ou até mesmo clonar a voz de uma pessoa.
Testes preliminares, como os realizados pelo TechCrunch através de uma demonstração online, indicam que o Dia funciona surpreendentemente bem, gerando conversas sobre diversos assuntos. A qualidade das vozes foi considerada competitiva e a função de clonagem de voz destacou-se pela facilidade de uso.
No entanto, assim como muitas ferramentas similares, o Dia levanta preocupações sobre segurança. A Nari Labs oferece poucas salvaguardas contra o uso indevido, tornando relativamente fácil a criação de desinformação ou golpes. Embora desencorajem o abuso do modelo para impersonificação ou atividades ilícitas em suas páginas de projeto, o grupo afirma não ser responsável por tal uso.
Outro ponto de atenção é a falta de transparência sobre os dados usados no treinamento do Dia. Existe a possibilidade de que material protegido por direitos autorais tenha sido utilizado – um comentário no Hacker News apontou semelhanças com as vozes dos apresentadores do podcast "Planet Money" da NPR. A prática de treinar IAs com conteúdo protegido é comum, mas legalmente controversa.
Apesar das questões, os planos da Nari Labs são ambiciosos. Kim afirma que pretendem criar uma plataforma de voz sintética com um "aspecto social" sobre o Dia e futuros modelos maiores. Além disso, planejam lançar um relatório técnico detalhado e expandir o suporte do modelo para outros idiomas além do inglês.