Inteligência Artificial 19 May, 2026 • Filippe Barreto Sims • 2

Gemini 3.5 Flash: quando a IA programa o sistema todo

O problema que ninguém quer enfrentar

Você tem uma pipeline de código complexa, dependências quebradas, testes que falham em horários aleatórios. Um desenvolvedor levaria semanas para resolver. Agora a Google diz que o Gemini 3.5 Flash faz isso em horas, sozinho, sem supervisão. O modelo que a DeepMind chama de 'seu mais forte para codificação e agentes autônomos' está disponível para todos desde terça-feira no I/O.

Mas a pergunta que fica: você confia em uma IA que constrói um sistema operacional do zero enquanto você toma café?

O Fato

O Gemini 3.5 Flash foi lançado como modelo padrão no Gemini app, no AI Mode do Search, e via API. A grande novidade não é apenas a performance em benchmarks, liderando em codificação, tarefas agênticas e raciocínio multimodal. É a capacidade de executar pipelines de código completos, gerenciar projetos de pesquisa e, em testes internos da Google, construir um sistema operacional do zero. O modelo foi co-desenvolvido com o Antigravity, a IDE e plataforma agêntica da empresa, para dar aos agentes um 'ambiente nativo onde possam viver, trabalhar e executar'.

Kavukcuoglu afirma que o Flash 3.5 é quatro vezes mais rápido que outros modelos de fronteira, e uma versão otimizada chega a ser 12 vezes mais rápida com a mesma qualidade. Isso muda o jogo para tarefas que exigem múltiplos agentes rodando em paralelo por horas.

Como funciona (visão de operador)

O modelo usa uma arquitetura que prioriza baixa latência sem sacrificar qualidade. Ele pode rodar autonomamente por várias horas, mas em pontos de decisão ou permissão, pausa e pede input humano. A integração com o Antigravity 2.0 (lançado como app desktop standalone) sugere que a Google está projetando um ecossistema onde agentes não são apenas chamadas de API, mas entidades persistentes com estado e contexto.

Internamente, a Google já vê o Flash como o 'executor bruto', enquanto o futuro 3.5 Pro será o orquestrador, planejador e modelo mais pesado para raciocínio. Doshi explica que a divisão de trabalho entre Pro e Flash é sobre onde colocar o poder de raciocínio versus força bruta de ferramentas. Para quem desenvolve, isso significa pensar em arquiteturas de agentes híbridos, onde o modelo certo para cada subtask pode reduzir custos de inferência dramaticamente.

O que isso muda na prática

Quem ganha? Equipes de engenharia que automatizam fluxos de trabalho que antes duravam semanas. Bancos e fintechs, segundo a Google, já usam o Flash para reduzir ciclos de integração e deploy. Data science teams podem explorar ambientes de dados complexos sem esperar por scripts manuais.

Quem perde? Desenvolvedores que vendem tempo de codificação repetitiva. E também quem precisa garantir que agentes autônomos não tomem decisões catastróficas. A Google melhorou salvaguardas contra riscos cibernéticos e CBRN, mas o processo judicial em andamento sobre um caso de dano real causado por chat com Gemini mostra que a barreira entre utilidade e perigo é fina.

Ação prática: se você usa APIs de LLM, comece a testar o Flash 3.5 para tarefas de codificação que exigem múltiplas etapas. Mas implemente limites rígidos de escopo e supervisão obrigatória em pontos de decisão. Trate o agente como um estagiário muito rápido, não como um engenheiro sênior.

Tensão real: o custo da velocidade

Velocidade e autonomia são ótimas até o momento em que o agente erra algo que um humano pegaria. O modelo é 'melhor calibrado para engajar com perguntas sensíveis em vez de recusá-las', mas isso também significa que ele pode ir longe demais antes de pedir ajuda. E a promessa de rodar por horas sem supervisão constante coloca um peso enorme na qualidade dos guardrails.

Além disso, o custo pode ser enganoso: inferência mais barata por token não significa custo total menor se o agente fizer 10 vezes mais chamadas que um humano faria. O ganho de produtividade precisa ser medido com métricas reais de entregas e retrabalho, não apenas com benchmarks.

O que levar disso

O Gemini 3.5 Flash não é apenas um modelo melhor. Ele é a primeira peça de uma infraestrutura onde agentes de IA são cidadãos de primeira classe no ciclo de desenvolvimento. Quem construir sistemas que equilibram autonomia com controle humano vai sair na frente. Quem ignorar os riscos e simplesmente delegar tudo pode se ver depurando não apenas código, mas consequências.