A Microsoft construiu um mercado falso para testar agentes de IA – eles falharam de maneira surpreendente
Na quarta-feira, pesquisadores da Microsoft lançaram um novo ambiente de simulação projetado para testar agentes de IA, juntamente com novas pesquisas mostrando que os atuais modelos de agentes podem ser vulneráveis à manipulação. Conduzida em colaboração com a Arizona State University, a pesquisa levanta novas questões sobre o desempenho dos agentes de IA quando trabalham sem supervisão – e com que rapidez as empresas de IA podem cumprir as promessas de um futuro agente.
O ambiente de simulação, apelidado de “Mercado Magnético” da Microsoft, é construído como uma plataforma sintética para experimentar o comportamento do agente de IA. Um experimento típico pode envolver um cliente-agente tentando pedir o jantar de acordo com as instruções do usuário, enquanto agentes representando vários restaurantes competem para ganhar o pedido.
Os experimentos iniciais da equipe incluíram 100 agentes separados do lado do cliente interagindo com 300 agentes do lado comercial. Como o código-fonte do mercado é de código aberto, deve ser fácil para outros grupos adotarem o código para executar novos experimentos ou reproduzir descobertas.
Ece Kamar, diretor administrativo do AI Frontiers Lab da Microsoft Research, diz que esse tipo de pesquisa será fundamental para a compreensão das capacidades dos agentes de IA. “Há realmente uma questão sobre como o mundo vai mudar se estes agentes colaborarem, falarem entre si e negociarem”, disse Kamar. “Queremos entender essas coisas profundamente.”
A pesquisa inicial analisou uma combinação de modelos líderes, incluindo GPT-4o, GPT-5 e Gemini-2.5-Flash, e encontrou alguns pontos fracos surpreendentes. Em particular, os investigadores descobriram várias técnicas que as empresas poderiam utilizar para manipular os agentes dos clientes para que comprem os seus produtos. Os pesquisadores notaram uma queda específica na eficiência à medida que o agente do cliente tinha mais opções de escolha, sobrecarregando o espaço de atenção do agente.
“Queremos que esses agentes nos ajudem a processar muitas opções”, diz Kamar. “E estamos vendo que os modelos atuais estão realmente ficando sobrecarregados por terem muitas opções.”
Os agentes também enfrentaram problemas quando foram solicitados a colaborar em prol de um objetivo comum, aparentemente sem saber qual agente deveria desempenhar qual papel na colaboração. O desempenho melhorou quando os modelos receberam instruções mais explícitas sobre como colaborar, mas os pesquisadores ainda viam que as capacidades inerentes dos modelos precisavam de melhorias.
Evento Techcrunch
São Francisco
|
13 a 15 de outubro de 2026
“Podemos instruir os modelos – assim como podemos contá-los, passo a passo”, disse Kamar. “Mas se estivermos testando inerentemente suas capacidades de colaboração, esperaria que esses modelos tivessem essas capacidades por padrão.”
Share this content:



Publicar comentário