O agente SIMA 2 do Google usa o Gemini para raciocinar e agir em mundos virtuais

SIMA 2 playing different games

O agente SIMA 2 do Google usa o Gemini para raciocinar e agir em mundos virtuais

Google DeepMind compartilhado na quinta-feira, uma prévia da pesquisa do SIMA 2, a próxima geração de seu agente generalista de IA que integra os poderes de linguagem e raciocínio do Gemini, o grande modelo de linguagem do Google, para ir além de simplesmente seguir instruções para compreender e interagir com seu ambiente.

Como muitos dos projetos da DeepMind, incluindo AlphaFold, a primeira versão do SIMA foi treinada em centenas de horas de dados de videogame para aprender como jogar vários jogos 3D como um humano, mesmo em alguns jogos para os quais não foi treinado. O SIMA 1, lançado em março de 2024, podia seguir instruções básicas em uma ampla variedade de ambientes virtuais, mas teve uma taxa de sucesso de apenas 31% na conclusão de tarefas complexas, em comparação com 71% para humanos.

“O SIMA 2 é uma mudança radical e uma melhoria nas capacidades em relação ao SIMA 1”, disse Joe Marino, cientista pesquisador sênior da DeepMind, em uma coletiva de imprensa. “É um agente mais geral. Ele pode completar tarefas complexas em ambientes nunca antes vistos. E é um agente de autoaperfeiçoamento. Portanto, ele pode realmente se autoaperfeiçoar com base em sua própria experiência, o que é um passo em direção a robôs de uso geral e sistemas AGI de forma mais geral.”

DeepMind diz que SIMA 2 dobra o desempenho do SIMA 1Créditos da imagem:Google DeepMind

SIMA 2 é alimentado pelo modelo flash-lite Gemini 2.5, e AGI refere-se à inteligência artificial geral, que DeepMind define como um sistema capaz de uma ampla gama de tarefas intelectuais com a capacidade de aprender novas habilidades e generalizar conhecimentos em diferentes áreas.

Trabalhar com os chamados “agentes incorporados” é crucial para a inteligência generalizada, dizem os pesquisadores da DeepMind. Marino explicou que um agente incorporado interage com um mundo físico ou virtual através de um corpo – observando entradas e realizando ações como um robô ou humano faria – enquanto um agente não incorporado pode interagir com seu calendário, fazer anotações ou executar código.

Jane Wang, pesquisadora sênior da DeepMind com formação em neurociência, disse ao TechCrunch que o SIMA 2 vai muito além da jogabilidade.

“Estamos pedindo que ele realmente entenda o que está acontecendo, entenda o que o usuário está pedindo e então seja capaz de responder de maneira sensata, o que é realmente bastante difícil”, disse Wang.

Evento Techcrunch

São Francisco
|
13 a 15 de outubro de 2026

Ao integrar o Gemini, o SIMA 2 duplicou o desempenho do seu antecessor, unindo as capacidades avançadas de linguagem e raciocínio do Gemini com as competências incorporadas desenvolvidas através do treino.

deepmind O agente SIMA 2 do Google usa o Gemini para raciocinar e agir em mundos virtuais
Créditos da imagem:Google DeepMind

Marino demonstrou o SIMA 2 em “No Man’s Sky”, onde o agente descreveu seus arredores – uma superfície rochosa do planeta – e determinou seus próximos passos reconhecendo e interagindo com um farol de socorro. SIMA 2 também usa Gêmeos para raciocinar internamente. Em outra brincadeira, quando solicitado a caminhar até a casa que tem a cor de um tomate maduro, o agente mostrou seu pensamento – tomate maduro é vermelho, portanto devo ir até a casa vermelha – então encontrou e se aproximou dela.

Ser movido pelo Gemini também significa que o SIMA 2 segue instruções baseadas em emojis: “Você o instrui 🪓🌲 e ele derrubará uma árvore”, disse Marino.

Marino também demonstrou como o SIMA 2 pode navegar em mundos fotorrealistas recém-gerados produzidos pelo Genie, o modelo de mundo da DeepMind, identificando e interagindo corretamente com objetos como bancos, árvores e borboletas.

SIMA-2-blog-figure-3 O agente SIMA 2 do Google usa o Gemini para raciocinar e agir em mundos virtuais
DeepMind diz que SIMA 2 é um agente de autoaperfeiçoamentoCréditos da imagem:Google DeepMind

Gemini também permite o autoaperfeiçoamento sem muitos dados humanos, acrescentou Marino. Enquanto o SIMA 1 foi treinado inteiramente na jogabilidade humana, o SIMA 2 a utiliza como base para fornecer um modelo inicial forte. Quando a equipe coloca o agente em um novo ambiente, ela pede a outro modelo Gemini para criar novas tarefas e um modelo de recompensa separado para pontuar as tentativas do agente. Usando essas experiências autogeradas como dados de treinamento, o agente aprende com seus próprios erros e gradualmente tem um desempenho melhor, essencialmente ensinando a si mesmo novos comportamentos por meio de tentativa e erro, como faria um ser humano, guiado por feedback baseado em IA em vez de humanos.

A DeepMind vê o SIMA 2 como um passo para desbloquear mais robôs de uso geral.

“Se pensarmos no que um sistema precisa fazer para executar tarefas no mundo real, como um robô, acho que há dois componentes nele”, disse Frederic Besse, engenheiro sênior de pesquisa da DeepMind, durante uma coletiva de imprensa. “Primeiro, há uma compreensão de alto nível do mundo real e do que precisa ser feito, bem como algum raciocínio.”

Se você pedir a um robô humanóide em sua casa para verificar quantas latas de feijão você tem no armário, o sistema precisará entender todos os diferentes conceitos – o que são feijões, o que é um armário – e navegar até esse local. Besse diz que o SIMA 2 aborda mais esse comportamento de alto nível do que ações de nível inferior, às quais ele se refere como controlar coisas como articulações e rodas físicas.

A equipe se recusou a compartilhar um cronograma específico para a implementação do SIMA 2 em sistemas robóticos físicos. Besse disse ao TechCrunch que o DeepMind recentemente revelado modelos básicos de robótica – que também podem raciocinar sobre o mundo físico e criar planos de várias etapas para completar uma missão – foram treinados de forma diferente e separada do SIMA.

Embora também não haja um cronograma para lançar mais do que uma prévia do SIMA 2, Wang disse ao TechCrunch que o objetivo é mostrar ao mundo no que a DeepMind está trabalhando e ver que tipos de colaborações e usos potenciais são possíveis.

Share this content:

Publicar comentário