OpenAI está testando as ambições científicas da IA

OpenAI está testando as ambições científicas da IA

OpenAI está testando as ambições científicas da IA

Demis Hassabis fundada DeepMind para “resolver inteligência” e depois usá-la para “resolver todo o resto”. Sam Altman prometido que “os ganhos para a qualidade de vida decorrentes da IA, que impulsiona o progresso científico mais rápido…serão enormes”. Dario Amodei da Antrópico previsto que já em 2026, o progresso da IA ​​poderá produzir um “país de génios num centro de dados”. De todos os mitos fundamentais que impulsionam o boom da IA, a esperança de que a IA possa ajudar a humanidade a compreender o universo está entre os mais duradouros.

FrontierScience, um novo benchmark publicado terça-feira pela OpenAI, sugere que os modelos de IA estão avançando em direção a esse objetivo – e destaca a dificuldade de testar as capacidades dos modelos à medida que se tornam cada vez mais competitivos com os cientistas humanos. “Queremos medir rigorosamente como os modelos podem melhorar as capacidades científicas e talvez até acelerar a descoberta científica”, diz Miles Wang, investigador da equipa de avaliação da OpenAI que liderou o trabalho.

O benchmark contém questões de física, química e biologia em dois níveis de dificuldade. As perguntas no nível das Olimpíadas testam “a fronteira do que muitas mentes jovens brilhantes são capazes de fazer”, diz Wang. Um nível de pesquisa mais desafiador, contendo questões de Ph.D. cientistas, testa “raciocínio aberto, julgamento e a capacidade de apoiar pesquisas no mundo real”.

Um exemplo de questão de pesquisa se estendia por dois parágrafos, perguntando sobre “átomos de mesonitrogênio na ftalocianina de níquel (II). Executar as simulações computacionais para resolvê-lo “pode levar vários dias”, diz Francisco Martin-Martinez, professor sênior de química no King’s College London.

Outro pediu uma derivação dos “modos de ondas eletrostáticas” no plasma. “Fiz uma análise semelhante no início deste ano para um tipo diferente de onda… Acho que demorou cerca de 3 semanas para fazer as contas corretamente”, disse Tom Ashton-Key, pesquisador PhD em física de plasma no Imperial College London, à TIME. “5 a 10% do meu tempo é dedicado a responder perguntas semelhantes a esta.”

Os resultados do benchmark mostram a mesma tendência que está impulsionando grande parte do boom da IA: uma linha subindo e indo para a direita. “Começamos a fazer esse benchmark há meses e o progresso não foi tão alto”, diz Wang. No momento em que o artigo foi publicado, no entanto, as coisas haviam mudado. “O progresso foi intensamente rápido no último ano com (aprendizado por reforço) e modelos de raciocínio.”

O GPT-5.2 lançado recentemente pela OpenAI tem o melhor desempenho no benchmark, alcançando 77,1% no nível Olimpíada e 25,3% em Pesquisa – embora sua melhoria em relação ao seu antecessor, GPT-5, seja insignificante na última categoria. Se e quando se aproximarem de 100% no nível de pesquisa, os modelos de IA serão “um excelente colaborador e multiplicarão o progresso que estudantes de doutorado ou cientistas podem fazer”, segundo Wang.

No entanto, a FrontierScience “não mede todos os recursos importantes na ciência”, diz Wang. Como as perguntas são apenas de texto, os modelos não estão sendo testados quanto à capacidade de realizar experimentos ou analisar imagens e vídeos. Pequenos conjuntos de perguntas (100 perguntas no nível Olimpíada, 60 no nível Pesquisa) significam que é difícil fazer comparações confiáveis ​​entre modelos com desempenho próximo, e o artigo carece de uma linha de base humana que mostre como um ser humano se sairia nas perguntas.

“Espero que o benchmark seja altamente correlacionado com o trabalho existente… e não seja tão informativo sobre quando os modelos serão realmente úteis para auxiliar a pesquisa, mas é muito difícil fazer o contrário com um benchmark”, Jaime Sevilla, diretor do instituto de pesquisa Epoch AI, disse à TIME por e-mail. “No geral, parece uma boa adição ao ecossistema de benchmarking.”

Estas questões são mais amplas do que apenas este parâmetro de referência. “Estamos atingindo o limite daquilo que podemos avaliar com segurança como um leigo”, diz Wang. “Fica muito caro, tanto em termos de tempo quanto de custo, encontrar com segurança especialistas de domínio muito especializados.” Quando a pessoa que escreve a pergunta é um dos poucos especialistas mundiais no assunto, é difícil encontrar alguém que lhe diga o quão difícil é o problema.

O desafio de encontrar especialistas para construir benchmarks é tratado fora da OpenAI, por empresas especializadas em anotação de dados, como Mercor ou Surge AI, ambas avaliadas em mais de US$ 10 bilhões. Eles contratam especialistas de instituições acadêmicas para elaborar perguntas e rubricas para avaliar as respostas dos modelos. “Se você quiser ver a hipótese de Riemann comprovada durante sua vida, o que você quer fazer? Você vai ajudar a treinar uma IA para resolvê-la ou colaborar com a IA para resolvê-la”, diz Edwin Chen, fundador e CEO da Surge AI.

A IA já teve um impacto substancial no trabalho científico. O AlphaFold do Google DeepMind previu mais de 200 milhões de estruturas de proteínas, o que pegar centenas de milhões de anos para serem encontrados experimentalmente, de acordo com a empresa. Outro projeto tem como objetivo simular e controlar o plasma dentro de um reator de fusão. UM terceiro faz sistemas de IA para fazer previsões meteorológicas detalhadas.

Na maior parte, porém, estas são aplicações restritas de IA que visam uma pequena parte de um único campo. “AlphaFold fornece a estrutura da proteína e como ela se dobra, mas não diz nada sobre suas propriedades eletrônicas ou onde estão os elétrons”, diz Martin-Martinez.
Para muitas empresas de IA e startupso grande prêmio é uma IA que possa ajudar em todo o processo científico – desde a concepção de experimentos até a análise de dados – em uma ampla variedade de campos.

Grandes modelos de linguagem (LLMs) prometem exatamente esse tipo de generalidade. Em matemática e codificação, eles estão começando a apresentar resultados. Sebastien Bubeck, um matemático que agora trabalha na OpenAI, apresentou ao GPT-5 um problema que ele e seus alunos de pós-graduação não conseguiram resolver durante anos. “Deixamos pensar por dois dias”, diz Bubeck. “Havia ali uma identidade milagrosa que o modelo encontrou e isso realmente resolveu o problema.”

Tarefas de codificação que costumavam levar quatro horas agora levam trinta minutos para Keith Butler, professor associado de química na University College London. “Na verdade, sou capaz de programar novamente”, diz ele. Mas quando se trata de realmente fazer descobertas ou propor novas hipóteses em sua área, ele é “um pouco mais cético”.

Outros são ainda mais céticos. “A quantidade de coisas estúpidas que saem de qualquer LLM é tão colossal que não é nada confiável”, diz Carlo Rovelli, físico teórico da Universidade de Aix-Marseille.

“No momento, são um fardo enorme, porque os periódicos estão submersos em submissões”, diz Rovelli, acrescentando que o número de submissões para a revista Foundations of Physics, da qual é editor-chefe, mais que dobrou no último ano. “A maior parte são apenas pessoas que pensam que estão fazendo grande ciência ao conversar com LLMs – e isso é horrível.”

Se a tendência indicada pela FrontierScience continuar, os LLMs poderão em breve tornar-se assistentes de investigação mais fiáveis. Isto deixa Martin-Martinez entusiasmado, mas “perdido” pelo ritmo do progresso. “Muitos sentimentos. Preciso de um LLM para resumi-los”, diz ele.

Share this content:

Publicar comentário