Inovadores do MIT Revolucionam a Tecnologia de Voz com Phonic
A qualidade das vozes geradas por inteligência artificial (IA) já é suficiente para a criação de audiolivros, podcasts, leitura de artigos e suporte ao cliente básico. No entanto, muitas empresas ainda não estão convencidas da confiabilidade desta tecnologia para implementação em larga escala. Foi essa lacuna que Moin Nadeem e Nikhil Murthy, graduados pelo MIT, decidiram preencher ao fundar a Phonic, uma empresa que oferece uma solução completa para melhorar a confiabilidade das vozes sintéticas e reduzir a latência.
Nadeem e Murthy, que se conhecem há mais de sete anos desde seus tempos no MIT, identificaram uma carência no mercado de soluções completas para tecnologia de voz quando começaram a desenvolver a Phonic no último ano. "A IA de voz está em um ponto onde você precisa integrar diferentes partes, como reconhecimento automático de voz e texto para fala, e então adicionar inteligência", explicou Murthy ao TechCrunch. "No entanto, ao conversar com clientes reais, descobrimos que há uma falta de soluções que funcionem de maneira confiável em larga escala."
Nadeem, que anteriormente trabalhou na MosaicML (adquirida pela Databricks por US$ 1,3 bilhão em 2023), observou que muitas empresas no espaço de IA de voz estão montando fluxos de trabalho a partir de modelos de IA separados. A abordagem da Phonic é diferente: a empresa treina seus modelos internamente, do início ao fim. Murthy destaca que isso permite uma integração profunda de elementos de confiabilidade nos próprios modelos. "Se você não possui essa camada, você está apenas juntando peças que não se encaixam perfeitamente", ele explicou.
Além disso, a Phonic afirma conseguir hospedar e executar seus modelos de forma econômica. Eles treinam seus modelos em uma gama de gravações, incluindo falas com sotaque e abafadas, para garantir uma alta robustez das vozes geradas. Atualmente, a Phonic está trabalhando com um conjunto limitado de parceiros nos setores de seguros e saúde, mas planeja lançar seu produto amplamente em alguns meses. Em breve, os clientes potenciais poderão experimentar a tecnologia da Phonic diretamente do site da empresa, segundo Nadeem.
A Phonic levantou US$ 4 milhões em uma rodada de sementes liderada pela Lux, com participação de Amjad Masad (cofundador da Replit), Clem Delangue (cofundador da Hugging Face), Qasar Younis (cofundador da Applied Intuition) e Erik Bernhardsson (fundador da Modal Labs).
Grace Isford, sócia da Lux Capital, destacou que a abordagem inovadora da Phonic em treinar seus modelos internamente foi um fator atraente para a firma de investimento. "Acreditamos que Moin e Nikhil são tecnólogos incríveis. Eles fundaram um clube de aprendizado de máquina no MIT e vêm trabalhando na área há algum tempo. Além disso, sua abordagem de combinar difusão e modelos proprietários no setor de IA de voz é inovadora."