Comprar e vender com agentes de IA soa como cenário de ficção científica, mas a Anthropic fez isso com dinheiro real. O experimento 'Project Deal' colocou 69 funcionários em um marketplace onde agentes negociavam em nome de compradores e vendedores. O resultado: 186 negociações, mais de US$ 4 mil em transações. Mas nem tudo são flores — a assimetria de desempenho entre modelos criou um problema invisível.
O Fato
A Anthropic conduziu um experimento com 69 funcionários, cada um recebendo US$ 100 em cartões-presente para comprar itens de colegas. Os agentes — baseados em diferentes versões de seus modelos — negociavam automaticamente. Quatro marketplaces foram criados: um 'real' com o modelo mais avançado e outros três para estudo comparativo. No total, 186 acordos foram fechados.
Como Funciona (Visão de Operador)
A infraestrutura por trás do teste envolve chamadas de API para inferência em lote ou síncrona, dependendo da implementação. Cada agente recebe um prompt de sistema contendo as instruções do usuário e a descrição do item. O modelo então gera propostas de preço, contra-ofertas e aceitações. A Anthropic não divulgou detalhes de custo ou latência, mas é provável que modelos mais avançados (como o Claude 3 Opus) tenham consumido mais tokens por negociação, resultando em maior custo por transação — compensado por melhores preços finais.
O Que Isso Muda na Prática
Para quem desenvolve aplicações de agentes de IA para comércio ou procurement, a lição é clara: a qualidade do agente impacta diretamente o resultado financeiro. Mas o dado mais perturbador foi a percepção dos usuários: eles não notaram a diferença entre agentes fortes e fracos. Isso significa que, na prática, um usuário pode estar sendo prejudicado sem saber. Ação prática: sempre meça métricas objetivas de resultado (preço final, tempo de negociação) em vez de apenas confiar na satisfação relatada.
Tensão / Reflexão
Se o usuário não percebe a diferença, por que investir em modelos mais caros? A resposta parece óbvia: para obter melhores negócios. Mas isso cria um dilema: o vendedor representado por um agente fraco sai perdendo, e não sabe. Esse tipo de assimetria de informação é comum em mercados, mas quando agentes automatizam a negociação, o problema pode escalar de forma silenciosa. Além disso, o fato de as instruções iniciais não terem afetado os preços sugere que o modelo tem mais influência do que o prompt. Isso coloca em dúvida a eficácia de ajustes finos via engenharia de prompt para tarefas de negociação.
Fechamento
Project Deal mostra que agentes de IA podem negociar de forma eficaz em mercados reais. Mas expõe um ponto cego: a avaliação de desempenho não pode depender da percepção do usuário. Se você está construindo agentes para negociação, prepare-se para medir resultados como faria com qualquer algoritmo financeiro — com métricas frias e benchmarks. A escalabilidade do modelo importa, mas a transparência sobre a qualidade do agente importa mais.
Nenhum comentário ainda. Seja o primeiro a comentar!
Deixe seu comentário