Os agentes de IA estão prontos para o local de trabalho? Um novo benchmark levanta dúvidas.

3D rendered conceptual illustration of numerous business figures evenly scattered across a soft pink background: solid colored human workers standing alongside identical translucent ghost-like figures, each translucent worker marked by a glowing “AI” symbol hovering above – powerful visualization of artificial intelligence replacing human workforce, solid employees mixed with their AI-replaced counterparts, automation displacing jobs, digital transformation eliminating roles, technological unemployment, workforce disruption, future of work with AI substitution, and the new era where real human workers are gradually replaced by artificial intelligence.

Os agentes de IA estão prontos para o local de trabalho? Um novo benchmark levanta dúvidas.

Já se passaram quase dois anos desde que o CEO da Microsoft, Satya Nadella, previu IA substituiria o trabalho do conhecimento — os empregos de colarinho branco ocupados por advogados, banqueiros de investimento, bibliotecários, contadores, TI e outros.

Mas, apesar do enorme progresso alcançado pelos modelos de base, a mudança no trabalho do conhecimento tem demorado a chegar. Os modelos dominaram a investigação aprofundada e o planeamento de agentes, mas, por alguma razão, a maior parte do trabalho de colarinho branco não foi relativamente afectada.

É um dos maiores mistérios da IA ​​– e graças a novas pesquisas da gigante de dados de treinamento Mercor, finalmente estamos obtendo algumas respostas.

A nova pesquisa analisa como os principais modelos de IA se comportam na execução de tarefas reais de trabalho de colarinho branco, extraídas de consultoria, banco de investimento e direito. O resultado é um novo benchmark chamado Agentes Apex – e até agora, todos os laboratórios de IA estão obtendo nota baixa. Diante de perguntas de profissionais reais, mesmo os melhores modelos tiveram dificuldade para acertar mais de um quarto das perguntas. Na grande maioria das vezes, o modelo voltava com uma resposta errada ou sem resposta alguma.

De acordo com o pesquisador Brendan Foody, que trabalhou no artigo, o maior obstáculo dos modelos foi rastrear informações em vários domínios – algo que é parte integrante da maior parte do trabalho de conhecimento realizado por humanos.

“Uma das grandes mudanças neste benchmark é que construímos todo o ambiente, modelado a partir de serviços profissionais reais”, disse Foody ao Techcrunch. “A maneira como fazemos nosso trabalho não é com um indivíduo nos fornecendo todo o contexto em um só lugar. Na vida real, você opera no Slack, no Google Drive e em todas essas outras ferramentas.” Para muitos modelos de IA de agência, esse tipo de raciocínio multidomínio ainda é um sucesso ou um fracasso.

Captura de tela

Os cenários foram todos elaborados por profissionais reais do mercado especializado da Mercor, que formularam as dúvidas e estabeleceram o padrão para uma resposta bem-sucedida. Olhando através das perguntas, que são postado publicamente em Hugging Facedá uma ideia de quão complexas as tarefas podem se tornar.

Evento Techcrunch

São Francisco
|
13 a 15 de outubro de 2026

Uma pergunta na seção “Lei” diz:

Durante os primeiros 48 minutos da interrupção da produção na UE, a equipe de engenharia da Northstar exportou um ou dois conjuntos de logs de eventos de produção da UE contendo dados pessoais para o fornecedor de análise dos EUA…. De acordo com as próprias políticas da Northstar, ela pode razoavelmente tratar uma ou duas exportações de log como consistentes com o Artigo 49?

A resposta correta é sim, mas chegar lá requer uma avaliação aprofundada das políticas da própria empresa, bem como das leis de privacidade relevantes da UE.

Isso pode confundir até mesmo um ser humano bem informado, mas os pesquisadores estavam tentando modelar o trabalho realizado por profissionais da área. Se um LLM puder responder de forma confiável a essas perguntas, poderá efetivamente substituir muitos dos advogados que trabalham hoje. “Acho que este é provavelmente o tópico mais importante da economia”, disse Foody ao TechCrunch. “A referência reflete muito o trabalho real que essas pessoas realizam.”

OpenAI também tentou medir habilidades profissionais com seu benchmark GDPVal – mas o teste Apex Agents difere em aspectos importantes. Enquanto o GDPVal testa o conhecimento geral em uma ampla gama de profissões, o benchmark Apex Agents mede a capacidade do sistema de executar tarefas sustentadas em um conjunto restrito de profissões de alto valor. O resultado é mais difícil para os modelos, mas também está mais intimamente ligado à questão de saber se esses trabalhos podem ser automatizados.

Embora nenhum dos modelos tenha se mostrado pronto para assumir o papel de banqueiros de investimento, alguns estavam claramente mais próximos do alvo. Gemini 3 Flash teve o melhor desempenho do grupo com 24% de precisão one-shot, seguido de perto pelo GPT-5.2 com 23%. Abaixo disso, Opus 4.5, Gemini 3 Pro e GPT-5 pontuaram cerca de 18%.

Embora os resultados iniciais sejam insuficientes, o campo da IA ​​tem um histórico de superar benchmarks desafiadores. Agora que o teste Apex é público, é um desafio aberto para os laboratórios de IA que acreditam que podem fazer melhor – algo que Foody espera plenamente nos próximos meses.

“Está melhorando muito rapidamente”, disse ele ao TechCrunch. “Neste momento, é justo dizer que é como um estagiário que acerta um quarto das vezes, mas no ano passado foi o estagiário que acertou cinco ou dez por cento das vezes. Esse tipo de melhoria ano após ano pode ter um impacto muito rapidamente.”

)

Share this content:

Publicar comentário