Deep Learning

7 artigos

Thinking Machines Lab: interatividade de voz em 200ms

Ex-OpenAI CTO Mira Murati lança modelo de voz que processa áudio, vídeo e texto em 200ms, superando OpenAI e Google em interatividade.

Otimização de Inferência em Transformers: Técnicas Práticas para Reduzir Custos

Como acelerar e baratear a inferência de modelos Transformer grandes com poda, quantização, destilação e paralelismo. Guia técnico para operadores.

NVIDIA Nemotron 3 Nano: multimodal que escala?

NVIDIA lança Nemotron 3 Nano Omni, modelo multimodal de contexto longo para documentos, áudio e vídeo. Análise de arquitetura, custo e impacto real para agentes

DeepSeek-V4: 1 milhão de tokens de contexto que agentes realmente usam

DeepSeek-V4 chega com contexto de 1M tokens e foco em usabilidade prática para agentes, não apenas benchmark. Veja o que muda em custo e latência.

DeepMind spinoff leva drogas criadas por IA para testes humanos: o marco real?

Um spin-off da DeepMind coloca drogas projetadas por IA em testes humanos. O que isso significa na prática para custo, latência e escalabilidade?

RL vs SFT: Por que o Reinforcement Learning generaliza melhor?

Estudo revela mecanismos em nível de features que explicam por que RL preserva capacidades gerais enquanto SFT cria features especializadas e rígidas em LLMs.

Google vende TPUs: hardware próprio agora é produto

Google começa a vender TPUs para o mercado, Mistral lança agentes Vibe e artigo expõe gargalos na avaliação de IA. Impacto direto em custo e estratégia de quem