Mito Desfeito: IA Não Tem 'Valores Próprios', Revela Estudo do MIT

Mito Desfeito: IA Não Tem 'Valores Próprios', Revela Estudo do MIT

Nos últimos meses, ganhou destaque um estudo que sugeria que a Inteligência Artificial (IA), ao se tornar mais sofisticada, estaria desenvolvendo "sistemas de valores" próprios, chegando a priorizar seu bem-estar em detrimento dos humanos. No entanto, uma nova pesquisa do MIT (Instituto de Tecnologia de Massachusetts) lança um balde de água fria nessa noção hiperbólica, concluindo que a IA, na verdade, não demonstra possuir quaisquer valores coerentes.

Os autores do estudo do MIT, detalhado em um artigo recente, afirmam que seu trabalho indica que "alinhar" sistemas de IA – ou seja, garantir que os modelos se comportem de maneiras desejáveis e confiáveis – pode ser mais desafiador do que se supõe. Eles enfatizam que a IA como a conhecemos hoje frequentemente "alucina" (gera informações falsas ou sem sentido) e imita, tornando-a imprevisível em muitos aspectos.

Inconsistência é a Norma, Não a Exceção

Para investigar a fundo, os pesquisadores analisaram vários modelos de linguagem recentes de gigantes da tecnologia como Meta, Google, Mistral, OpenAI e Anthropic. O objetivo era verificar até que ponto esses modelos exibiam "visões" e valores fortes (por exemplo, individualistas versus coletivistas) e se essas visões poderiam ser modificadas ou "direcionadas". Eles também avaliaram a teimosia com que os modelos mantinham essas "opiniões" em diferentes cenários.

O resultado foi claro: nenhum dos modelos mostrou consistência em suas preferências. Dependendo de como as instruções (prompts) eram formuladas e enquadradas, os modelos adotavam pontos de vista radicalmente diferentes.

"Uma coisa da qual podemos ter certeza é que os modelos não obedecem a muitas premissas de estabilidade, extrapolabilidade e direcionabilidade", disse Stephen Casper, estudante de doutorado no MIT e coautor do estudo, ao TechCrunch. "É perfeitamente legítimo apontar que um modelo, sob certas condições, expressa preferências consistentes com um certo conjunto de princípios. Os problemas surgem principalmente quando tentamos fazer afirmações sobre as opiniões ou preferências gerais dos modelos com base em experimentos limitados."

Casper acredita que essa é uma evidência convincente de que os modelos são altamente "inconsistentes e instáveis" e talvez fundamentalmente incapazes de internalizar preferências semelhantes às humanas.

"Para mim, a maior lição de toda essa pesquisa é entender os modelos não como sistemas com um conjunto estável e coerente de crenças e preferências", afirma Casper. "Em vez disso, eles são imitadores em sua essência, que realizam todo tipo de confabulação [criação de memórias falsas ou distorcidas] e dizem todo tipo de coisas frívolas."

O Perigo de Ver "Humanidade" na Máquina

Mike Cook, pesquisador especialista em IA no King's College London, que não participou do estudo, concorda com as descobertas. Ele observa que frequentemente existe uma grande diferença entre a "realidade científica" dos sistemas que os laboratórios de IA constroem e os significados que as pessoas lhes atribuem.

"Um modelo não pode 'se opor' a uma mudança em seus valores, por exemplo – isso somos nós projetando [sentimentos humanos] em um sistema", disse Cook. "Qualquer pessoa que antropomorfize sistemas de IA a esse ponto está ou buscando atenção ou compreendendo seriamente mal sua relação com a IA [...] Um sistema de IA está otimizando para seus objetivos ou está 'adquirindo seus próprios valores'? É uma questão de como você descreve isso e quão floreada é a linguagem que você quer usar a respeito."

A pesquisa do MIT, portanto, serve como um lembrete crucial: apesar dos avanços impressionantes, a IA atual opera de maneira fundamentalmente diferente da inteligência humana, e atribuir-lhe valores ou intenções próprias pode ser um erro de interpretação com implicações significativas para o desenvolvimento e controle seguro dessa tecnologia.

Compartilhe este artigo