Toda vez que preciso de um TTS decente para testes, esbarro nos mesmos problemas: modelos pesados, APIs caras ou latência impraticável pra rodar local. Soluções como Edge TTS ou ElevenLabs funcionam, mas dependem de nuvem e custam caro em escala. O Flare-TTS 28M chega como um alívio: um modelo text-to-speech treinado do zero em 24 horas em uma única GPU A6000, com 28 milhões de parâmetros e licença aberta. O som ainda é meio robótico, como o autor admite, mas o feito técnico merece atenção.
O fato
O desenvolvedor LH-Tech_AI lançou no Hugging Face o Flare-TTS 28M, seu primeiro modelo TTS treinado completamente do zero. Foram usados o dataset LJSpeech, uma única GPU A6000 e cerca de 300 épocas ao longo de 24 horas. O modelo está disponível gratuitamente sob licença open-source, com exemplos de áudio que mostram uma voz em inglês ainda com sotaque robótico, mas funcional.
Como funciona (visão de operador)
Com 28 milhões de parâmetros, o Flare-TTS se encaixa na categoria de modelos pequenos para TTS. A arquitetura exata não foi detalhada, mas é provável que use uma abordagem similar ao Tacotron 2 ou FastSpeech, com encoder-decoder baseado em transformador e um vocoder (talvez HiFi-GAN) para síntese final. Treinar um modelo desses em 24 horas em uma única A6000 (48 GB de VRAM) indica que o dataset LJSpeech (cerca de 24 horas de áudio) foi suficiente para convergir com batch size razoável. A inferência deve rodar em tempo real em GPUs comuns ou até CPUs otimizadas, consumindo pouca VRAM (talvez 1-2 GB). O custo de treino: aproximadamente US$ 2-3 em eletricidade para 24h de A6000. O custo de inferência é praticamente zero, já que roda localmente.
O que isso muda na prática
Para desenvolvedores que precisam de TTS offline, esse modelo é um respiro. Você pode gerar áudio sem enviar dados para a nuvem, sem depender de chaves de API ou limites de taxa. Quem constrói assistentes locais, ferramentas de acessibilidade ou protótipos rápidos ganha um ponto de partida. A desvantagem clara é a qualidade: ainda está longe dos modelos comerciais. Mas para cenários onde inteligibilidade basta (por exemplo, leitura de notificações), serve bem. Uma ação prática: baixe o modelo do Hugging Face e teste com seu próprio pipeline de inferência. Adapte o vocoder se precisar de mais naturalidade.
Tensão / Reflexão
O modelo soa robótico, e o autor não esconde isso. A pergunta é: treinar por mais tempo ou com mais dados melhoraria significativamente a qualidade, ou o gargalo está na arquitetura e no dataset pequeno? Com 28M de parâmetros, é tentador pensar que aumentar o modelo traria ganhos, mas o custo de treino em GPU única explode. A compensação entre leveza e qualidade natural é real. Você prefere um modelo pequeno que funciona offline mesmo que robótico, ou paga por API para ter vozes quase humanas? Depende do uso.
Conclusão
Flare-TTS 28M prova que é possível treinar um TTS funcional em 24 horas com orçamento de hardware modesto. Ele não substitui soluções comerciais, mas amplia o acesso a TTS local para quem não quer depender de nuvem. O próximo passo é ver a comunidade melhorar a qualidade com fine-tuning em mais dados. Vale o teste?
Fonte: Reddit r/LocalLLaMA
Modelo: Hugging Face
Nenhum comentário ainda. Seja o primeiro a comentar!
Deixe seu comentário