Inteligência Artificial 03 May, 2026 • Filippe Barreto Sims • 2

O1 acerta mais que médicos na triagem: e agora?

Um paciente chega ao pronto-socorro com sintomas vagos. O médico tem minutos para decidir. E se um modelo de linguagem, com os mesmos dados, acertasse mais que o humano?

Foi o que um estudo publicado na Science e liderado por Harvard Medical School e Beth Israel Deaconess Medical Center testou. E os resultados são — para dizer o mínimo — incômodos para quem defende que médicos são insubstituíveis.

O Fato

Os pesquisadores pegaram 76 casos reais de um pronto-socorro e compararam os diagnósticos de dois médicos plantonistas com os gerados pelos modelos o1 e 4o da OpenAI. A avaliação foi cega: outros dois médicos julgaram sem saber se vinha de humano ou máquina.

Resultado: o modelo o1 acertou o diagnóstico exato ou muito próximo em 67% dos casos na triagem inicial. O melhor médico ficou em 55%, o outro em 50%. A diferença foi mais acentuada justamente no momento com menos informação disponível — a triagem de entrada.

Como Funciona (Visão de Operador)

O ponto crucial: os pesquisadores não pré-processaram os dados. O modelo recebeu o mesmo texto bruto dos prontuários eletrônicos que os médicos tinham. Nada de prompts estruturados, nenhuma engenharia de features.

Para quem constrói sistemas de IA, isso levanta questões operacionais imediatas:

Custo de inferência: o modelo o1 é significativamente mais caro e mais lento que o 4o. Num ambiente de emergência, latência de segundos pode ser crítica.
Tokenização: textos clínicos são densos, cheios de abreviações e jargão. O modelo conseguiu interpretar sem fine-tuning — mas em escala, quanto custa processar cada caso?
Modalidade única: o estudo usou apenas texto. Nenhum raio-X, ultrassom ou tomografia foi considerado. Modelos multimodais são o próximo passo, mas trazem ainda mais complexidade.

O Que Isso Muda na Prática

Quem ganha: Hospitais e sistemas de saúde que podem integrar IA como apoio à decisão na triagem. Um modelo que sugere diagnósticos pode reduzir erros iniciais, especialmente em plantões noturnos ou superlotados.

Quem perde: Médicos que tratam a IA como inimiga. O estudo não mostra substituição, mas sim que a combinação humano+máquina pode superar ambos separados. E também quem acredita que o problema é só técnico — falta um arcabouço de responsabilidade legal.

Ação prática: Se você trabalha com IA aplicada à saúde, comece a testar modelos em texto clínico bruto, sem pré-processamento. E, principalmente, participe das discussões regulatórias. O estudo mostra que a tecnologia já performa — falta o resto do ecossistema acompanhar.

Tensão / Reflexão

O modelo acertou mais, mas isso não resolve o gargalo real. Num pronto-socorro, o diagnóstico não é uma resposta única: ele evolui com novos exames, histórias contadas pela família, linguagem não-verbal. O estudo é retrospectivo — as decisões já tinham sido tomadas. Em tempo real, com pressão, ruído e consequências, a história pode ser outra.

Além disso, os próprios autores pedem testes prospectivos urgentes. E o médico Adam Rodman, um dos autores, foi direto: “não existe hoje um framework formal de responsabilidade” para diagnósticos feitos por IA. Pacientes querem um humano guiando decisões de vida ou morte.

O modelo o1 é bom. Mas bom o suficiente para operar sem supervisão? A resposta honesta é: ainda não sabemos.

Fechamento

A IA na triagem de emergência não é mais ficção. O estudo mostra que, em condições controladas, o modelo o1 supera médicos. Mas o salto de um benchmark promissor para a operação real exige mais que acurácia: exige regulação, infraestrutura de baixa latência e, acima de tudo, confiança. O próximo passo não é treinar um modelo maior. É construir o sistema que vai operá-lo com segurança.