Inteligência Artificial 12 May, 2026 • Filippe Barreto Sims • 1

IA que interrompe: o full duplex da Thinking Machines

Você já tentou conversar com uma IA e sentiu o atraso incômodo?

Aquele silêncio enquanto ela processa sua frase inteira antes de responder. A Thinking Machines Lab quer acabar com isso.

O Fato

Na segunda feira, a Thinking Machines Lab (fundada pela ex CTO da OpenAI Mira Murati) anunciou interaction models. Na prática, é uma IA que pode interromper você, processando sua fala enquanto gera resposta. O modelo TML-Interaction-Small responde em 0.40 segundos, comparável a uma conversa humana.

Como Funciona

O termo técnico é full duplex. Ao contrário dos modelos tradicionais (half duplex) onde você fala, espera, ouve, este modelo faz tudo simultaneamente. É como uma ligação telefônica. A latência de 0.40s é um avanço significativo sobre os concorrentes. Ainda não há detalhes sobre custo ou arquitetura, mas a empresa afirma que a interatividade é nativa, não um add on.

O Que Isso Muda na Prática

Quem ganha? Aplicações de voz em tempo real: atendimento, assistentes, jogos. Quem perde? Modelos que dependem de prompt resposta única. A ação prática: se você trabalha com voice UX, comece a testar o conceito de full duplex. A Thinking Machines promete uma prévia de pesquisa nos próximos meses. Prepare seu pipeline para latência abaixo de 500ms.

Tensão e Reflexão

Isso escala? O custo de processamento simultâneo é maior. A qualidade da resposta pode cair se o modelo interromper no momento errado. O verdadeiro teste não é o benchmark, é a experiência do usuário. Um modelo que interrompe pode ser irritante se mal calibrado. E a disponibilidade? Ainda é research preview, não produto.

Fechamento

Full duplex é o próximo passo natural para interação por voz. Mas a execução é o diferencial. A Thinking Machines tem o timing técnico, mas o timing de produto será crucial. Enquanto isso, monitore essa tecnologia. Ela pode mudar o que esperamos de um assistente de IA.