Os modelos de IA 'visual' são realmente cegos?

A última rodada de modelos de linguagem, como GPT-4o e Gemini 1.5 Pro, são anunciados como 'multimodais', capazes de entender imagens e áudio, além de texto - mas um novo estudo deixa claro que eles realmente não veem da maneira que você pode esperar. Na verdade, eles podem nem ver nada.

Para ser claro desde o início, ninguém fez reivindicações como 'Esta IA pode ver como as pessoas fazem!' (Bem... talvez alguns tenham). Mas o marketing e os benchmarks usados para promover esses modelos usam frases como 'capacidades de visão', 'compreensão visual', e assim por diante. Eles falam sobre como o modelo vê e analisa imagens e vídeos, para que possa fazer desde problemas de lição de casa até assistir ao jogo para você.

Portanto, embora as reivindicações dessas empresas sejam habilmente formuladas, é claro que elas querem expressar que o modelo vê de alguma forma a palavra. E faz - mas de certa forma, da mesma forma que faz matemática ou escreve histórias: combinando padrões nos dados de entrada com padrões em seus dados de treinamento. Isso leva os modelos a falharem da mesma forma que em certas outras tarefas que parecem triviais, como escolher um número aleatório.

Um estudo - informal de certa forma, mas sistemático - sobre a compreensão visual dos atuais modelos de IA foi realizado por pesquisadores da Universidade de Auburn e da Universidade de Alberta. Eles impuseram às maiores tarefas multimodais modelos uma série de tarefas visuais muito simples, como perguntar se dois formatos se sobrepõem, ou quantos pentágonos há em uma imagem, ou qual letra em uma palavra está circulada. (Um micropage de resumo pode ser consultado aqui.)

São o tipo de coisa que até mesmo uma criança do primeiro ano faria corretamente, mas que deu grande dificuldade aos modelos de IA.

'Nossas 7 tarefas são extremamente simples, onde os humanos teriam 100% de precisão. Esperamos que as IAs façam o mesmo, mas atualmente NÃO', escreveu o co-autor Anh Nguyen em um e-mail para o TechCrunch. 'Nossa mensagem é: 'olha, esses melhores modelos ainda estão falhando'. '

Créditos da imagem: Rahmanzadehgervi et al

Pegue o teste de formas sobrepostas: uma das tarefas de raciocínio visual mais simples concebíveis. Apresentados com dois círculos ligeiramente sobrepostos, apenas tocando ou com alguma distância entre eles, os modelos não conseguiam acertar consistentemente. Claro, o GPT-4o acertou mais de 95% das vezes quando estavam longe um do outro, mas a zero ou pequenas distâncias, acertou apenas 18% das vezes! O Gemini Pro 1.5 se sai melhor, mas ainda consegue acertar 7 em 10 em distâncias próximas.

(As ilustrações não mostram o desempenho exato dos modelos, mas pretendem mostrar a inconsistência dos modelos em diferentes condições. As estatísticas de cada modelo estão no artigo.)

Ou quantos círculos entrelaçados há em uma imagem? Aposta que um cavalo acima da média poderia fazer isso.

Créditos da imagem: Rahmanzadehgervi et al

Todos acertam 100% das vezes quando há 5 anéis - ótimo trabalho, IA visual! Mas, em seguida, adicionar um anel destrói completamente os resultados. O Gemini está perdido, incapaz de acertar uma única vez. O Sonnet-3.5 responde 6... uma terceira parte do tempo e o GPT-4o um pouco menos da metade do tempo. Adicionar outro anel torna as coisas ainda mais difíceis, mas adicionar outro facilita para alguns.

O objetivo deste experimento é simplesmente mostrar que, seja lá o que esses modelos estejam fazendo, não corresponde realmente ao que pensamos como ver. Afinal, mesmo que eles vissem mal, não esperaríamos que imagens de 6, 7, 8 e 9 anéis variem tanto em sucesso.

As outras tarefas testadas mostraram padrões semelhantes: não era que eles estivessem vendo ou raciocinando bem ou mal, mas parecia haver algum outro motivo pelo qual eram capazes de contar em um caso, mas não em outro.

Uma resposta potencial, é claro, está bem na nossa frente: por que eles são tão bons em acertar uma imagem com 5 círculos, mas falham tão miseravelmente no resto, ou quando são 5 pentágonos? (Para ser justo, o Sonnet-3.5 se saiu muito bem nisso.) Porque todos têm uma imagem com 5 círculos em destaque em seus dados de treinamento: os Anéis Olímpicos.

Créditos da imagem: IOC

Este logotipo não é apenas repetido muitas vezes nos dados de treinamento, mas provavelmente é descrito em detalhes em texto alternativo, diretrizes de uso e artigos sobre ele. Mas onde em seus dados de treinamento você encontrará 6 anéis entrelaçados, ou 7? Se suas respostas forem algum indicativo... em lugar nenhum! Eles não têm ideia do que estão 'vendo', e não têm uma compreensão visual real do que são anéis, sobreposições ou quaisquer desses conceitos.

Perguntei o que os pesquisadores pensam dessa 'cegueira' que acusam que os modelos têm. Assim como outros termos que usamos, tem uma qualidade antropomórfica que não é totalmente precisa, mas difícil de ignorar.

'Concordo, 'cego' tem muitas definições até mesmo para humanos e ainda não há uma palavra para esse tipo de cegueira/insensibilidade de IAs para as imagens que estamos mostrando,' escreveu Nguyen. 'Atualmente, não há tecnologia para visualizar exatamente o que um modelo está vendo. E seu comportamento é uma função complexa do texto de entrada prompt, imagem de entrada e muitos bilhões de pesos.'

Ele especulou que os modelos não são exatamente cegos, mas que as informações visuais que extraem de uma imagem são aproximadas e abstratas, algo como 'há um círculo no lado esquerdo'. Mas os modelos não têm meios de fazer julgamentos visuais, tornando suas respostas semelhantes às de alguém informado sobre uma imagem, mas que não consegue realmente vê-la.

Como último exemplo, Nguyen enviou isso, que apoia a hipótese acima:

Créditos da imagem: Anh Nguyen

Quando um círculo azul e um círculo verde se sobrepõem (como a pergunta pede para o modelo levar como fato), muitas vezes há uma área sombreada ciano, como em um diagrama de Venn. Se alguém lhe fizesse essa pergunta, você ou qualquer pessoa inteligente poderia dar a mesma resposta, porque é totalmente plausível... se seus olhos estiverem fechados! Mas ninguém com os olhos abertos responderia dessa maneira.

Isso significa que esses modelos de IA 'visuais' são inúteis? Longe disso. Não ser capaz de fazer raciocínio elementar sobre certas imagens fala de suas capacidades fundamentais, mas não específicas. Cada um desses modelos provavelmente será altamente preciso em coisas como ações e expressões humanas, fotos de objetos e situações cotidianas, e assim por diante. E, de fato, é para isso que foram feitos para interpretar.

Se confiássemos no marketing das empresas de IA para nos dizer tudo o que esses modelos podem fazer, pensaríamos que eles tinham uma visão perfeita. Pesquisas como essa são necessárias para mostrar que, por mais precisos que sejam os modelos em dizer se uma pessoa está sentada, andando ou correndo, eles fazem isso sem 'ver' no sentido (se assim posso dizer) que tendemos a pensar.