Inteligência Artificial 05 Jun, 2026 • Filippe Barreto Sims • 1

Memória de LLM sem vazamento de contexto: precisão 100%

O problema que todo operador conhece

Se você já usou um LLM para um projeto que se estende por dias, sabe o drama: a cada nova sessão, o modelo esquece tudo. Você repete instruções, cola snippets, reexplica decisões. O pior é que isso custa tokens — cada token irrelevante no contexto é dinheiro e latência. Uma nova ferramenta, Tenure, promete resolver isso com uma abordagem radical: memória persistente sem vazamento de contexto e com 100% de precisão.

O Fato

O Tenure é um sistema de memória para LLMs que opera como um proxy entre o cliente e o provedor. Ele extrai crenças estruturadas — decisões, preferências, fatos — das conversas e as injeta automaticamente em todas as requisições futuras, sem precisar de tool calls ou prompt engineering. Diferente de memórias baseadas em busca vetorial, que muitas vezes retornam chunks irrelevantes, o Tenure afirma entregar apenas o que realmente importa, com precisão absoluta.

Como Funciona (Visão de Operador)

A arquitetura é simples na superfície. O Tenure se registra como um provedor LLM nativo no VS Code. Você mantém sua chave de API. Toda requisição passa pelo Tenure, que enriquece o contexto com as crenças armazenadas antes de enviar ao modelo. Não há chamada de função — a injeção é automática. Isso elimina o problema de memórias baseadas em MCP, onde o modelo decide se vai buscar o contexto. Na prática, significa que a memória está sempre disponível, sem depender da 'vontade' do modelo.

O resultado, segundo os criadores, é uma precisão de 100% na recuperação de informações relevantes. Eles disponibilizaram um dataset no HuggingFace para reprodutibilidade. A métrica que importa: custo de tokens por sessão cai drasticamente porque você não paga mais por contexto irrelevante.

O Que Isso Muda na Prática

Para quem desenvolve com LLMs, isso muda a forma de pensar memória. Se antes você precisava de um sistema RAG, embeddings e um banco vetorial, agora pode ter uma memória que 'aprende' enquanto você trabalha. A recomendação prática: use o Tenure primeiro com extração ligada e injeção desligada. Deixe ele observar suas sessões por uma semana. Depois, abra o painel do VS Code e veja o que ele aprendeu. Edite, apague, fixe. Só então ligue a injeção. É um teste sem risco.

Quem ganha? Desenvolvedores que perdem tempo reexplicando contexto. Quem perde? Soluções de busca vetorial e RAG que prometem precisão mas entregam ruído. A ação imediata é instalar e testar no seu fluxo real.

Tensão / Reflexão

Mas será que 100% de precisão é real ou apenas um overfitting no dataset de teste? A promessa é tentadora, mas levanta perguntas: escalabilidade? O custo de injetar crenças em toda requisição pode aumentar a latência, mesmo que reduza tokens desperdiçados. E se o modelo receber informação desatualizada? A edição manual resolve, mas não escala. O Tenure depende de extração automática de 'crenças' — e a qualidade disso é tão boa quanto o modelo de extração. Resolve o problema de vazamento de contexto, mas cria um novo: o de garantir que a memória seja precisa e relevante sem intervenção humana.

Outro ponto: a precisão de 100% é medida em um dataset específico. No mundo real, a ambiguidade de linguagem natural pode gerar crenças conflitantes. Como o sistema lida com isso? E o custo de executar um proxy em cada requisição? Vale o trade-off? Essas são perguntas que só o uso contínuo vai responder.

Conclusão

No final, o Tenure é uma tentativa corajosa de resolver um dos gargalos mais chatos do uso cotidiano de LLMs. Vale testar, mas com ceticismo operacional. A pergunta que fica: memória automática é o que precisamos, ou só mais uma camada de complexidade disfarçada de simplicidade?