Os cientistas construíram o teste de IA mais difícil de todos os tempos e os resultados são surpreendentes

Pesquisadores testaram IA contra 100.000 humanos em criatividade

Os cientistas construíram o teste de IA mais difícil de todos os tempos e os resultados são surpreendentes

À medida que os sistemas de inteligência artificial começaram a obter pontuações extremamente elevadas em benchmarks académicos há muito utilizados, os investigadores notaram um problema crescente. Os testes que antes desafiavam as máquinas já não eram suficientemente difíceis. Avaliações bem conhecidas, como o exame Massive Multitask Language Understanding (MMLU), que anteriormente era visto como exigente, agora não conseguem medir adequadamente as capacidades dos atuais modelos avançados de IA.

Para resolver este problema, um grupo mundial de quase 1.000 investigadores, incluindo um professor da Texas A&M University, desenvolveu um novo tipo de teste. O objetivo deles era criar um exame que fosse amplo, difícil e baseado no conhecimento humano especializado de uma forma que os atuais sistemas de IA ainda têm dificuldade em realizar.

O resultado é o “Último Exame da Humanidade” (HLE), uma avaliação de 2.500 questões que abrange matemática, humanidades, ciências naturais, línguas antigas e uma ampla gama de áreas acadêmicas altamente especializadas. Detalhes do projeto aparecem em artigo publicado em Naturezae informações adicionais sobre o exame estão disponíveis em lastexam.ai.

Entre os muitos colaboradores está o Dr. Tung Nguyen, professor associado instrucional do Departamento de Ciência da Computação e Engenharia da Texas A&M. Nguyen ajudou a escrever e refinar muitas das questões do exame.

“Quando os sistemas de IA começam a funcionar extremamente bem em benchmarks humanos, é tentador pensar que estão se aproximando da compreensão do nível humano”, disse Nguyen. “Mas o HLE nos lembra que a inteligência não se trata apenas de reconhecimento de padrões – trata-se de profundidade, contexto e conhecimento especializado.”

O objetivo do exame não era enganar ou derrotar os participantes humanos. Em vez disso, o objetivo era identificar cuidadosamente as áreas onde os sistemas de IA ainda são insuficientes.

Um esforço global para medir os limites da IA

Especialistas de todo o mundo escreveram e revisaram as questões incluídas no Último Exame da Humanidade. Cada problema foi cuidadosamente projetado para ter uma resposta clara e verificável. As perguntas também foram elaboradas para evitar soluções rápidas através de simples buscas na internet.

Os tópicos vêm de desafios acadêmicos avançados. Algumas tarefas envolvem a tradução de inscrições antigas de Palmira, enquanto outras exigem a identificação de pequenas estruturas anatômicas em pássaros ou a análise de características detalhadas da pronúncia do hebraico bíblico.

Os pesquisadores testaram todas as questões em relação aos principais sistemas de IA. Caso algum modelo conseguisse responder corretamente a uma questão, essa questão era retirada do exame final. Este processo garantiu que o teste permanecesse um pouco além do que os sistemas atuais de IA podem resolver de forma confiável.

Os primeiros testes confirmaram que a estratégia funcionou. Até modelos poderosos de IA tiveram dificuldades no exame. O GPT-4o alcançou uma pontuação de 2,7 por cento, enquanto o Claude 3.5 Sonnet atingiu 4,1 por cento. O modelo o1 da OpenAI teve um desempenho um pouco melhor, com 8%. Os sistemas mais capazes até agora, incluindo Gemini 3.1 Pro e Claude Opus 4.6, atingiram níveis de precisão entre cerca de 40% e 50%.

Por que são necessários novos benchmarks de IA

Nguyen explicou que a questão da IA ​​superar os testes mais antigos é mais do que uma preocupação técnica. Ele contribuiu com 73 das 2.500 questões publicamente disponíveis no HLE, o segundo maior número entre os contribuidores, e escreveu o maior número de questões relacionadas à matemática e à ciência da computação.

“Sem ferramentas de avaliação precisas, os decisores políticos, os desenvolvedores e os utilizadores correm o risco de interpretar mal o que os sistemas de IA podem realmente fazer”, disse ele. “Os benchmarks fornecem a base para medir o progresso e identificar riscos.”

De acordo com a equipa de investigação, pontuações elevadas em testes originalmente concebidos para humanos não indicam necessariamente inteligência genuína. Esses benchmarks medem principalmente até que ponto a IA pode completar tarefas específicas criadas para alunos humanos, em vez de capturar uma compreensão mais profunda.

Não é uma ameaça, mas uma ferramenta

Apesar do nome dramático, O Último Exame da Humanidade não pretende sugerir que os humanos estejam se tornando obsoletos. Em vez disso, destaca a grande quantidade de conhecimento e experiência que ainda permanece exclusivamente humana.

“Esta não é uma corrida contra a IA”, disse Nguyen. “É um método para compreender onde estes sistemas são fortes e onde enfrentam dificuldades. Essa compreensão ajuda-nos a construir tecnologias mais seguras e fiáveis. E, mais importante, lembra-nos porque é que a experiência humana ainda é importante.”

Construindo um benchmark de IA de longo prazo

O Último Exame da Humanidade foi projetado para servir como uma referência durável e transparente para futuros sistemas de IA. Para apoiar esse objetivo, os pesquisadores divulgaram publicamente algumas perguntas, mantendo a maioria oculta para que os modelos de IA não possam simplesmente memorizar as respostas.

“Por enquanto, o Último Exame da Humanidade permanece como uma das avaliações mais claras da lacuna entre a IA e a inteligência humana”, disse Nguyen, “e apesar dos rápidos avanços tecnológicos, permanece grande”.

Um enorme esforço de pesquisa internacional

Nguyen enfatizou que a escala do projeto demonstra o valor da colaboração entre disciplinas e países.

“O que tornou este projeto extraordinário foi a escala”, disse ele. “Especialistas de quase todas as disciplinas contribuíram. Não foram apenas cientistas da computação; foram historiadores, físicos, linguistas, pesquisadores médicos. Essa diversidade é exatamente o que expõe as lacunas nos sistemas de IA de hoje – talvez ironicamente, são os humanos trabalhando juntos.”

Share this content:

Publicar comentário