A história da IA ​​que explica o medo de uma bolha

A história da IA ​​que explica o medo de uma bolha

A história da IA ​​que explica o medo de uma bolha

Preocupações entre alguns investidores estão aumentando que o setor de IA, que sozinho evitou que a economia caísse em recessãotornou-se uma bolha insustentável. A Nvidia, principal fornecedora de chips usados ​​em IA, tornou-se a primeira empresa que vale a pena US$ 5 trilhões de dólares. Enquanto isso, a OpenAI, desenvolvedora do ChatGPT, ainda não fez uma lucro e está gastando bilhões de dólares de investimento por ano. Ainda assim, financiadores e capitalistas de risco continuam a investir dinheiro na OpenAI, na Anthropic e em outras startups de IA. A sua aposta é que a IA transformará todos os sectores da economia e, tal como aconteceu com os dactilógrafos e telefonistas de antigamente, substituirá empregos por tecnologia.

No entanto, há razões para temer que esta aposta possa não compensar. Nas últimas três décadas, a pesquisa em IA foi organizada em torno de melhorias em tarefas específicas, como o reconhecimento de fala. Com o surgimento de grandes modelos de linguagem (LLMs), como ChatGPT e Claude, no entanto, os agentes de IA são cada vez mais solicitados a realizar tarefas sem métodos claros para medir a melhoria.

Tomemos por exemplo a tarefa aparentemente mundana de criar uma apresentação em PowerPoint. O que constitui uma boa apresentação? Podemos apontar as melhores práticas, mas a apresentação de slides “ideal” depende de processos criativos, julgamentos de especialistas, ritmo, sentido narrativo e gostos subjetivos que são altamente contextuais. As apresentações de revisão anual diferem das propostas de start-up e atualizações de projetos. Você reconhece uma boa apresentação quando a vê – e uma apresentação ruim quando ela fracassa. Mas os testes padronizados que a área utiliza atualmente para avaliar a IA não conseguem capturar as qualidades acima.

Isto pode parecer um problema menor, mas as crises de avaliação contribuíram para quebras históricas da IA. E sem medidas precisas de quão boa a IA realmente é, é difícil saber se estamos caminhando para outra agora.

Leia mais: Os arquitetos da IA ​​são a personalidade do ano da TIME em 2025

O nascimento da IA ​​remonta frequentemente a um pequeno workshop em Dartmouth, em 1956, que reuniu cientistas da computação, psicólogos e outros com um interesse comum em imitar a inteligência humana em máquinas. O campo rapidamente encontrou um poderoso benfeitor na Agência de Projetos de Pesquisa Avançada de Defesa (DARPA), uma agência do Departamento de Defesa encarregada de manter a supremacia tecnológica durante a Guerra Fria. Para evitar ficar para trás na corrida científica, a DARPA concedeu aos investigadores de IA em universidades e empresas privadas subvenções significativas e sem compromisso ao longo dos próximos 40 anos.

Estas primeiras décadas neste campo foram definidas por picos de excitação, à medida que novas tecnologias eram inventadas, seguidos por vales de desilusão, à medida que não conseguiam evoluir para aplicações úteis. Durante a década de 1980, este ciclo foi estimulado por uma tecnologia de IA chamada “sistemas especializados”, que prometia construir máquinas com a inteligência de profissionais como médicos e planeadores financeiros. Nos bastidores, esses programas codificavam a experiência humana em regras formais: se o paciente tiver febre e erupção na pele, faça o teste de sarampo.

Os sistemas especialistas atraíram atenção e investimento significativos da indústria com base em sucessos iniciais, como a automatização de pedidos de empréstimo. Mas esse otimismo foi em grande parte alimentado pelo entusiasmo, e não por testes rigorosos. Na prática, estes sistemas especialistas tendem a cometer erros estranhos e por vezes desastrosos quando desafiados com tarefas mais complexas. Durante uma apresentação humorística, um sistema especializado sugeriu que a infecção de um homem pode ter sido causada por uma amniocentese anterior (um procedimento realizado em mulheres grávidas). Acontece que os pesquisadores esqueceram de adicionar uma regra para gênero.

Na época, crítico ardente da IA Hubert Dreyfus descreveu estes fracassos como a “falácia do primeiro passo”, argumentando que equiparar os sistemas especialistas ao progresso em direção à inteligência real era como “afirmar que o primeiro primata a subir numa árvore estava a dar o primeiro passo em direção ao voo para a Lua”. O problema era que, à medida que as tarefas se tornavam mais complicadas, o número de regras necessárias para cada caso possível aumentava rapidamente. Assim como passar do jogo da velha para as damas e depois para o xadrez, o número de possibilidades não apenas aumenta, mas explode exponencialmente.

Quando se tornou evidente que os sistemas especialistas não conseguiriam avançar mais, a investigação em IA entrou no chamado “Inverno da IA” no final da década de 1980. Os subsídios secaram, as empresas fecharam e a IA tornou-se um palavrão.

Na sequência, DARPA reavaliou sua estratégia de financiamento de IA. Em vez de conceder subsídios sem compromisso, os gestores de programas governamentais começaram a condicionar os prémios à obtenção da pontuação mais elevada num teste padronizado que chamaram de “referência”. Em contraste com problemas complexos como o diagnóstico médico, os benchmarks centravam-se em tarefas pequenas que eram alcançáveis ​​e de valor comercial e militar imediato. Eles também usaram métricas quantitativas para verificar os resultados. O seu sistema pode traduzir com precisão esta frase do russo para o inglês, transcrever este trecho de áudio ou digitalizar as letras nesses documentos? Os investigadores tiveram de fazer mais do que fazer afirmações espalhafatosas baseadas em tecnologias promissoras mas incompletas. Para obterem financiamento, tiveram de apresentar provas concretas de melhorias nos parâmetros de referência.

Estas competições de referência unificaram um campo indisciplinado ao canalizar investigadores de IA para problemas comuns. Em vez de cada grupo de investigação escolher os seus próprios projectos, a DARPA moldou a agenda colectiva da área, financiando investigadores para trabalharem em tarefas específicas, como reconhecimento de dígitos ou conversão de voz em texto. A natureza competitiva do novo regime de financiamento significou que as orientações de IA que tiveram menos sucesso nos parâmetros de referência foram excluídas. Por exemplo, a primeira competição de benchmark demonstrou que algoritmos de “aprendizado de máquina” que podem aprender a partir de dados dominaram as abordagens artesanais e baseadas em regras do passado.

Logo foram criadas tabelas de classificação públicas para fornecer feedback em tempo real sobre quais algoritmos detinham as pontuações mais altas em cada benchmark, permitindo aos pesquisadores aprender com os sucessos anteriores. À medida que as tarefas eram resolvidas, tarefas mais complexas eram colocadas em seu lugar. A tradução de palavras levou à tradução de parágrafos e, eventualmente, de vários idiomas. O reconhecimento de dígitos deu lugar ao reconhecimento de objetos em imagens e depois em vídeos.

No início da década de 2010, o progresso acelerou após benchmarks convenceram pesquisadores apostar tudo em uma abordagem de aprendizado de máquina inspirada no cérebro humano, chamada de redes neurais artificiais ou “aprendizado profundo”, que agora sustenta a IA generativa de hoje. Dentro de alguns anos, os algoritmos de fala para texto estavam capacitando os modernos assistentes de IA, e os algoritmos de reconhecimento de tumores começaram a superar os radiologistas em alguns tipos de câncer. O benchmarking aparentemente deu o primeiro passo em direção à IA utilizável na vida cotidiana.

No final da década, a área ficou surpresa ao descobrir que seu progresso em tarefas de benchmark havia levado a algoritmos de aprendizagem profunda que poderiam gerar textos fluentes e socialmente apropriados, como roteiros e poesia. Essas habilidades fizeram não aparecem nos benchmarks porque os benchmarks não foram projetados para encontrá-los. Esta revelação catalisou a revolução generativa da IA, levando a grandes modelos de linguagem como ChatGPT, Claude e outros que dominam o mercado hoje. Foi o maior triunfo do campo. No entanto, com esta nova tecnologia, o campo enfrenta uma nova crise.

Simplificando, as tarefas que agora procuramos automatizar já não têm parâmetros de referência claros. Não existe PowerPoint, campanha de marketing, hipótese científica ou poema “correto”. Ao contrário do reconhecimento de objetos, onde existe uma resposta certa ou errada, estes são problemas complexos, criativos, multidimensionais e baseados em processos, e mesmo os benchmarks mais difíceis simplesmente não conseguem medir objetivamente o progresso.

Como resultado, novos modelos de ChatGPT, Claude, Gemini e Copilot são avaliados tanto por “testes de vibração” quanto por benchmarks concretos. Actualmente, estamos presos entre duas abordagens inadequadas: padrões de referência de estilo antigo, que medem com precisão capacidades limitadas, e avaliações qualitativas que tentam captar as capacidades práticas destes sistemas, mas não conseguem produzir provas quantitativas e claras de progresso. Os investigadores estão a explorar novos sistemas de avaliação que unam estas perspectivas, mas este é um problema realmente difícil.

Os investimentos atuais pressupõem que uma automação significativa chegará nos próximos três a cinco anos. Mas sem métodos de avaliação fiáveis, não podemos saber se as tecnologias baseadas em LLM estão a conduzir-nos para uma verdadeira automação ou a repetir a falácia de Dreyfus, dando o primeiro passo num caminho sem saída. Esta é a diferença entre a infra-estrutura do futuro e uma bolha. No momento, é difícil dizer qual deles estamos construindo.

Bernard Koch é professor assistente de sociologia na Universidade de Chicago e estuda como a avaliação molda a ciência, a tecnologia e a cultura. David Peterson é professor assistente de sociologia na Purdue University e estuda como a IA está transformando a ciência.

Made by History leva os leitores além das manchetes com artigos escritos e editados por historiadores profissionais. Saiba mais sobre Made by History at TIME aqui. As opiniões expressas não refletem necessariamente as opiniões dos editores da TIME.

OpenAI e a TIME têm um acordo de licenciamento e tecnologia que permite à OpenAI acessar os arquivos da TIME.

Share this content:

Publicar comentário