Ditado por IA: seu escritório vai virar um call center?

Ditado por IA: seu escritório vai virar um call center?

O som muda

Você já trabalhou perto de alguém que dita e-mails para o computador? O Wall Street Journal mostrou que isso está se tornando comum, especialmente com ferramentas de vibe coding e ditado como Wispr. Um VC comparou visitar startups a entrar em um call center premium. O cofundador do Gusto, Edward Kim, diz que o escritório do futuro vai soar como um pregão de vendas. Para quem já sentou perto de um time de vendas, isso é um aviso.

O que está mudando de verdade

Não se trata só de modismo. A latência de modelos de fala caiu, o custo por token de inferência diminuiu e APIs como Whisper da OpenAI ficaram mais baratas. Apps como Wispr usam reconhecimento local e em nuvem para transformar fala em texto com baixa latência. O resultado: ditar é mais rápido que digitar para muitas tarefas. Kim afirma que só digita quando não tem escolha. Mas isso tem um custo: o barulho e a distração para quem está por perto.

Como funciona na prática

Arquiteturalmente, o fluxo é: áudio capturado pelo microfone, pré processamento local para remover ruído, envio parcial para API de speech to text, retorno do texto e inserção no campo ativo. O gargalo é a latência de rede e o processamento no servidor. Para aplicações de vibe coding, onde o código é gerado por fala, a precisão precisa ser alta. Isso exige fine tuning do modelo para jargão técnico. O custo computacional é maior, mas o ganho de velocidade na escrita compensa para quem programa ou escreve muito.

O que isso muda no seu dia

Se você trabalha em escritório aberto, prepare fones com cancelamento de ruído. Quem dita precisa de um espaço acústico tratado, senão o modelo erra tokens e gera retrabalho. Uma ação prática: defina zonas de silêncio e zonas de ditado no escritório. Ou invista em ferramentas que funcionem offline para reduzir latência e evitar vazamento de áudio. Quem perde são os ambientes de open space sem planejamento acústico. Quem ganha são os devs que conseguem codar mais rápido, desde que não atrapalhem os colegas.

Vale mesmo a pena?

A tensão real é: ditar acelera a produção individual, mas degrada a concentração coletiva. O custo de atenção dos outros é um déficit escondido. Resolve o gargalo da digitação, mas move o gargalo para o barulho ambiente. Em home office, o problema é diferente: cônjuges e familiares reclamam. A founder Mollie Amkraut Mueller disse que ela e o marido agora trabalham separados para evitar o incômodo dos sussurros noturnos.

O próximo normal

O CEO da Wispr, Tanay Kothari, acredita que isso vai se tornar tão normal quanto olhar para o celular. Talvez. Mas a transição exige repensar o layout do escritório, os headsets e até a cultura. Se você está testando ferramentas de ditado, planeje também como vai lidar com o ruído que cria. Porque o custo de inferência pode cair, mas o custo social não está na API.

Compartilhe este artigo

Comentários (0)

Nenhum comentário ainda. Seja o primeiro a comentar!

Deixe seu comentário