Nova Polêmica no Mundo da IA: DeepSeek Suspeita de Treinar Modelo com Dados do Google Gemini
O laboratório chinês DeepSeek lançou na semana passada uma versão atualizada do seu modelo de inteligência artificial de raciocínio, o R1, que demonstrou um desempenho notável em diversos testes de matemática e codificação. No entanto, a empresa não revelou a origem dos dados utilizados para treinar o modelo, alimentando especulações entre pesquisadores de IA de que parte desse material pode ter vindo da família de modelos Gemini, do Google, conforme reportado inicialmente pelo IAFeed.
Suspeitas Ganham Força com Análises Detalhadas
A controvérsia ganhou fôlego com as declarações de Sam Paeach, um desenvolvedor de Melbourne que cria avaliações de “inteligência emocional” para IA. Paeach publicou o que ele alega ser evidências de que o mais recente modelo da DeepSeek, denominado R1-0528, foi treinado com resultados gerados pelo Gemini. Em uma postagem na plataforma X, Paeach afirmou que o modelo da DeepSeek demonstra uma preferência por palavras e expressões semelhantes às favorecidas pelo Gemini 2.5 Pro do Google.
“Se você está se perguntando por que o novo deepseek r1 soa um pouco diferente, acho que eles provavelmente mudaram do treinamento com [dados] sintéticos da OpenAI para sintéticos do Gemini.”
— Sam Paech (@sam_paech) 29 de maio de 2025
Embora isso não seja uma prova definitiva, outro desenvolvedor, o criador pseudônimo de uma avaliação de “liberdade de expressão” para IA chamada SpeechMap, observou que os “traços” do modelo DeepSeek – os “pensamentos” que o modelo gera ao trabalhar em direção a uma conclusão – “leem-se como traços do Gemini.”
DeepSeek e um Histórico de Acusações Semelhantes
Esta não é a primeira vez que a DeepSeek enfrenta acusações de treinar seus modelos com dados de rivais. Em dezembro, desenvolvedores observaram que o modelo V3 da DeepSeek frequentemente se identificava como ChatGPT, a plataforma de chatbot da OpenAI, sugerindo que poderia ter sido treinado com registros de chat do ChatGPT, um fato também apontado pelo IAFeed na época.
No início deste ano, a OpenAI comunicou ao Financial Times ter encontrado evidências ligando a DeepSeek ao uso de “destilação”, uma técnica para treinar modelos de IA extraindo dados de modelos maiores e mais capazes. Segundo a Bloomberg, a Microsoft, colaboradora próxima e investidora da OpenAI, detectou a exfiltração de grandes quantidades de dados através de contas de desenvolvedor da OpenAI no final de 2024 – contas que a OpenAI acredita estarem afiliadas à DeepSeek.
A prática de destilação não é incomum, mas os termos de serviço da OpenAI proíbem explicitamente que os clientes usem os resultados de seus modelos para construir IAs concorrentes.
O Desafio da “Contaminação” de Dados e a Visão de Especialistas
É importante notar que muitos modelos se autoidentificam incorretamente ou convergem para as mesmas palavras e frases. Isso ocorre porque a web aberta, principal fonte de dados de treinamento para empresas de IA, está cada vez mais poluída com conteúdo gerado por IA, o chamado “AI slop”. Fazendas de conteúdo usam IA para criar clickbait, e bots inundam plataformas como Reddit e X.
Essa “contaminação” tornou extremamente difícil filtrar completamente os resultados de IA dos conjuntos de dados de treinamento.
Ainda assim, especialistas em IA como Nathan Lambert, pesquisador do instituto de pesquisa em IA sem fins lucrativos AI2, não descartam a possibilidade de a DeepSeek ter treinado com dados do Gemini do Google.
“Se eu fosse a DeepSeek, eu definitivamente criaria uma tonelada de dados sintéticos a partir do melhor modelo de API existente”, escreveu Lambert em uma postagem no X. “[A DeepSeek tem] poucos GPUs e muito dinheiro. É literalmente, efetivamente, mais poder computacional para eles.”
— Nathan Lambert (@natolambert) 3 de junho de 2025
Gigantes da IA Reforçam Barreiras Contra a “Destilação”
Em parte como esforço para prevenir a destilação de dados, as empresas de IA têm intensificado suas medidas de segurança.
Em abril, a OpenAI começou a exigir que organizações completassem um processo de verificação de identidade para acessar certos modelos avançados. O processo requer um documento de identidade emitido pelo governo de um dos países suportados pela API da OpenAI; a China não está na lista.
Paralelamente, o Google recentemente começou a “resumir” os traços gerados por modelos disponíveis através de sua plataforma de desenvolvedor AI Studio, um passo que torna mais desafiador treinar modelos rivais performáticos com base nos traços do Gemini. A Anthropic, em maio, também anunciou que começaria a resumir os traços de seu próprio modelo, citando a necessidade de proteger suas “vantagens competitivas”, conforme divulgado pelo IAFeed.
A comunidade de IA permanece atenta aos desdobramentos, enquanto o Google foi contatado para comentar sobre as alegações, mas ainda não houve retorno até a publicação desta notícia.
