Google DeepMind Anuncia Plano Ambicioso: Unir IAs Gemini e Veo para Revolucionar a Compreensão do Mundo Real

Google DeepMind Anuncia Plano Ambicioso: Unir IAs Gemini e Veo para Revolucionar a Compreensão do Mundo Real

Em uma recente participação no podcast "Possible", co-apresentado por Reid Hoffman (cofundador do LinkedIn), Demis Hassabis, CEO do Google DeepMind, revelou planos estratégicos para o futuro da inteligência artificial da empresa. O Google pretende integrar seus avançados modelos de IA Gemini com os modelos de geração de vídeo Veo.

O objetivo principal dessa fusão, segundo Hassabis, é aprimorar drasticamente a capacidade do Gemini de compreender o mundo físico. "Sempre construímos o Gemini, nosso modelo fundamental, para ser multimodal desde o início", explicou Hassabis. "E a razão pela qual fizemos isso [é porque] temos uma visão para essa ideia de um assistente digital universal, um assistente que [...] realmente ajuda você no mundo real."

A Corrida Rumo aos Modelos "Omni"

A iniciativa do Google se alinha a uma tendência crescente na indústria de IA: o desenvolvimento de modelos "omni", capazes de processar, entender e sintetizar múltiplos tipos de mídia (texto, imagem, áudio, vídeo). Essa abordagem multimodal é vista como essencial para criar IAs mais versáteis e conscientes do contexto.

  • O próprio Gemini já demonstra essa capacidade, podendo gerar texto, imagens e áudio.
  • A OpenAI, com seu modelo padrão no ChatGPT, também permite a criação nativa de imagens.
  • A Amazon anunciou planos para lançar um modelo "any-to-any" (qualquer entrada para qualquer saída) ainda este ano.

YouTube como Fonte de Treinamento?

Um ponto crucial para o desenvolvimento desses modelos complexos é o acesso a vastos conjuntos de dados de treinamento. Hassabis deu a entender que os dados de vídeo para o Veo vêm, em grande parte, do YouTube, plataforma pertencente ao Google.

"Basicamente, ao assistir a vídeos do YouTube — muitos vídeos do YouTube — [o Veo] consegue deduzir a física do mundo", comentou o CEO. Essa afirmação reforça a importância estratégica do conteúdo de vídeo para ensinar às IAs sobre interações e leis do mundo físico.

Anteriormente, o Google havia declarado à imprensa que seus modelos "podem ser" treinados com "algum" conteúdo do YouTube, respeitando os acordos com os criadores. No entanto, relatos indicam que a empresa ampliou seus termos de serviço no ano passado, uma medida que poderia facilitar o uso de mais dados da plataforma para treinar seus modelos de IA.

A integração planejada entre Gemini e Veo representa um passo significativo na ambição do Google de criar IAs mais capazes e integradas ao mundo real, prometendo avanços importantes na interação humano-máquina e na capacidade dos assistentes digitais de auxiliar em tarefas cotidianas complexas.

Compartilhe este artigo