Categoria: Inteligência Artificial
VulkanForge: motor LLM de 14 MB para AMD roda FP8 nativo
VulkanForge é um motor LLM leve (14 MB) em Vulkan/Rust que roda modelos FP8 nativos em GPUs AMD. Uma opção para quem precisa de inferência em hardware menos mai
Ler mais
2.5x mais rápido: Qwen3-27B com MTP bate recorde de desempenho local
Engenheiro consegue 2.5x de throughput no Qwen3-27B usando Multi-Token Prediction com GGUF quantizado e PR não-mergeado do llama.cpp.
Ler mais
SubQ: contexto de 12M tokens com custo sub-quadrático?
SubQ promete LLM com 12 milhões de tokens de contexto usando atenção sub-quadrática. Analisamos a arquitetura, ganhos reais e os gargalos de memória que ainda p
Ler mais
Agentes autônomos com LLM: o que está funcionando de verdade?
Agentes com LLM como controlador estão mudando a forma de resolver problemas. Entenda o que funciona: planejamento, memória e uso de ferramentas.
Ler mais
Raspberry Pi 5 roda LLMs com AI HAT+ 2: 40 TOPS, 8 GB RAM
Raspberry Pi lançou o AI HAT+ 2 com 40 TOPS de inferência e 8 GB de RAM onboard. Veja como funciona na prática e para quem realmente serve.
Ler mais
DeepSeek recusa chamar Taiwan de país: teste viraliza
Um usuário expõe recusa do DeepSeek em reconhecer Taiwan como país, levantando questões sobre censura geopolítica em IAs.
Ler mais
Gemini Robotics-ER 1.6: raciocínio espacial que escala?
DeepMind lança modelo que interpreta ambientes reais com múltiplas vistas. O que muda na prática para quem constrói robôs autônomos?
Ler mais
Google Deep Research Max: agente autônomo que escreve relatórios como analistas
Google lança Deep Research Max, agente autônomo baseado no Gemini 3.1 Pro que gera relatórios com citações, gráficos e suporte a dados privados via MCP.
Ler mais
IBM Granite 4.1: LLMs dense de 30B com contexto de 512K tokens
IBM lança Granite 4.1, família de LLMs de 3B, 8B e 30B parâmetros, com pipeline de 5 estágios, suporte a 512K tokens e licença Apache 2.0.
Ler mais