Bug no system prompt do Claude drena créditos e quebra agentes

Bug no system prompt do Claude drena créditos e quebra agentes

O custo escondido de um system prompt mal comportado

Você já conferiu o saldo da sua conta da Anthropic depois de uma noite de execução de agentes? Se ainda não, talvez seja hora de olhar. Um bug reportado no GitHub, com mais de 100 pontos no Hacker News, expõe um problema grave: o system prompt do Claude está desperdiçando créditos dos usuários e, em alguns casos, travando agentes gerenciados de forma irreversível.

O relato principal indica que, em determinadas configurações, o system prompt entra em loop de reinterpretação, gerando múltiplas chamadas de API desnecessárias. O resultado prático? A conta do usuário é debitada repetidamente sem que a tarefa seja concluída. Em cenários piores, o agente simplesmente para de responder — um estado que os desenvolvedores estão chamando de 'bricked'.

O que está acontecendo, de fato

O bug foi identificado em versões recentes do Claude API, especialmente no endpoint de mensagens com stream. Ao invés de seguir as instruções do system prompt, o modelo começa a re-processá-las como se fossem parte da entrada do usuário. Isso gera tokens extras, que são cobrados, e pode corromper o estado interno do agente.

Usuários reportaram perdas de dezenas de dólares em poucas horas. Um desenvolvedor mencionou que seu agente de análise de logs consumiu 200k tokens em menos de 30 minutos antes de travar. A Anthropic ainda não lançou um patch oficial, mas recomendou como workaround reduzir o tamanho do system prompt e evitar instruções muito genéricas.

O problema não é novo no ecossistema de LLMs — a sensibilidade a prompts grandes e mal estruturados é conhecida. Mas a escala do desperdício financeiro e a falha total do agente são preocupantes para quem usa IA em produção.

Arquitetura do bug na visão de operador

Do ponto de vista técnico, o bug parece estar na camada de interpretação do system prompt no serviço de streaming. Quando o prompt ultrapassa um certo limite de complexidade (estimo entre 4k e 8k tokens), o mecanismo de atenção do modelo pode misturar o prompt com o histórico de conversa. Isso não é um erro de alucinação comum — é um vazamento de contexto.

O resultado é que cada chamada de API inclui tokens de 'eco' do prompt, inflando o custo. Além disso, o loop pode fazer com que o agente ultrapasse o limite máximo de tokens sem produzir resposta útil, travando a thread. Para quem usa agentes headless (sem supervisão contínua), isso significa perda total de horas de processamento.

Se você está usando a API do Claude em modo batch, o impacto é menor porque as chamadas são mais curtas. Mas em streaming com janela de contexto dinâmica, o bug explode.

O que você precisa ajustar agora

Primeiro: monitore seu uso de tokens com uma ferramenta externa — o painel da Anthropic não é em tempo real e pode esconder picos. Segundo: reduza o system prompt para menos de 2k tokens sempre que possível. Se precisar de instruções longas, divida em etapas com chamadas separadas.

Para quem está construindo agentes gerenciados, adicione um limite de gasto por execução e um timeout que force a reinicialização após X minutos sem resposta útil. Teste o comportamento do agente com um prompt modificado antes de colocar em produção.

Evite usar o endpoint de streaming para prompts complexos até que a Anthropic confirme o patch. Troque para requisições síncronas se o atraso não for crítico.

Vale a pena confiar no Claude para agentes?

Aqui vem a tensão real. O Claude é um dos modelos mais coerentes do mercado, mas esse bug expõe uma fragilidade na arquitetura de custo. Economizar em latência e qualidade pode sair caro em desperdício. Escalar agentes baseados em um system prompt bugado é como construir uma casa com fundação instável — mais cedo ou mais tarde, o custo aparece.

A pergunta que fica: o custo do desperdício compensa a vantagem de usar um modelo mais inteligente? Para tarefas curtas e bem definidas, talvez. Para agentes autônomos que rodam horas, o risco financeiro é alto demais.

Não estou dizendo que você deve abandonar o Claude. Mas, como operador, você precisa de métricas reais de custo por tarefa e de um fallback para outros provedores. Dependência exclusiva de um único modelo é um convite para surpresas como essa.

Enquanto a Anthropic não resolver, desconfie do system prompt. E meça cada token.

Para acompanhar o status oficial do bug, veja o ticket no GitHub (https://github.com/anthropics/claude-code/issues/49363).

Compartilhe este artigo

Comentários (0)

Nenhum comentário ainda. Seja o primeiro a comentar!

Deixe seu comentário