Thinking Machines Lab: interatividade de voz em 200ms
Ex-OpenAI CTO Mira Murati lança modelo de voz que processa áudio, vídeo e texto em 200ms, superando OpenAI e Google em interatividade.
Otimização de Inferência em Transformers: Técnicas Práticas para Reduzir Custos
Como acelerar e baratear a inferência de modelos Transformer grandes com poda, quantização, destilação e paralelismo. Guia técnico para operadores.
NVIDIA Nemotron 3 Nano: multimodal que escala?
NVIDIA lança Nemotron 3 Nano Omni, modelo multimodal de contexto longo para documentos, áudio e vídeo. Análise de arquitetura, custo e impacto real para agentes
DeepSeek-V4: 1 milhão de tokens de contexto que agentes realmente usam
DeepSeek-V4 chega com contexto de 1M tokens e foco em usabilidade prática para agentes, não apenas benchmark. Veja o que muda em custo e latência.
DeepMind spinoff leva drogas criadas por IA para testes humanos: o marco real?
Um spin-off da DeepMind coloca drogas projetadas por IA em testes humanos. O que isso significa na prática para custo, latência e escalabilidade?
RL vs SFT: Por que o Reinforcement Learning generaliza melhor?
Estudo revela mecanismos em nível de features que explicam por que RL preserva capacidades gerais enquanto SFT cria features especializadas e rígidas em LLMs.
Google vende TPUs: hardware próprio agora é produto
Google começa a vender TPUs para o mercado, Mistral lança agentes Vibe e artigo expõe gargalos na avaliação de IA. Impacto direto em custo e estratégia de quem