Construí castelos de marshmallow no novo gerador mundial de IA do Google

Construí castelos de marshmallow no novo gerador mundial de IA do Google

Construí castelos de marshmallow no novo gerador mundial de IA do Google

O Google DeepMind está abrindo o acesso ao Project Genie, sua ferramenta de IA para criar mundos de jogos interativos a partir de prompts de texto ou imagens.

A partir de quinta-feira, os assinantes do Google AI Ultra nos EUA podem brincar com o protótipo de pesquisa experimental, que é alimentado por uma combinação do mais recente modelo mundial do Google, Genie 3, seu modelo de geração de imagens Nano Banana Pro e Gemini.

Ocorrendo cinco meses após a prévia da pesquisa do Genie 3, a mudança faz parte de um esforço mais amplo para coletar feedback do usuário e dados de treinamento enquanto a DeepMind corre para desenvolver modelos mundiais mais capazes.

Os modelos mundiais são sistemas de IA que geram uma representação interna de um ambiente e podem ser usados ​​para prever resultados futuros e planear ações. Muitos líderes de IA, incluindo os da DeepMind, acreditam que os modelos mundiais são um passo crucial para alcançar a inteligência artificial geral (AGI). Mas, no curto prazo, laboratórios como o DeepMind prevêem um plano de entrada no mercado que começa com videogames e outras formas de entretenimento e se ramifica no treinamento de agentes incorporados (também conhecidos como robôs) em simulação.

O lançamento do Project Genie pela DeepMind ocorre no momento em que a corrida mundial de modelos está começando a esquentar. O World Labs de Fei-Fei Li lançou no final do ano passado seu primeiro produto comercial chamado Marble. Runway, a startup de geração de vídeos com IA, também lançou recentemente um modelo mundial. E a startup AMI Labs, do ex-cientista-chefe da Meta, Yann LeCun, também se concentrará no desenvolvimento de modelos mundiais.

“Acho emocionante estar em um lugar onde podemos ter mais pessoas acessando e nos dando feedback”, disse Shlomi Fruchter, diretor de pesquisa da DeepMind, ao TechCrunch por meio de entrevista em vídeo, sorrindo de orelha a orelha de claro entusiasmo com o lançamento do Projeto Genie.

Os pesquisadores da DeepMind com quem o TechCrunch conversou foram sinceros sobre a natureza experimental da ferramenta. Pode ser inconsistente, às vezes gerando mundos jogáveis ​​de forma impressionante, outras vezes produzindo resultados desconcertantes que erram o alvo. Veja como funciona.

Evento Techcrunch

Boston, MA
|
23 de junho de 2026

Um castelo em estilo claymation no céu feito de marshmallows e doces.Créditos da imagem:TechCrunch

Você começa com um “esboço do mundo”, fornecendo instruções de texto para o ambiente e para um personagem principal, que mais tarde poderá manobrar pelo mundo na visão de primeira ou terceira pessoa. Nano Banana Pro cria uma imagem com base nas instruções que você pode, em teoria, modificar antes que o Genie use a imagem como ponto de partida para um mundo interativo. As modificações funcionaram principalmente, mas a modelo ocasionalmente tropeçava e lhe dava cabelo roxo quando você pedia verde.

Você também pode usar fotos da vida real como base para o modelo construir um mundo, que, novamente, foi um sucesso ou um fracasso. (Mais sobre isso mais tarde.)

Quando estiver satisfeito com a imagem, o Project Genie levará alguns segundos para criar um mundo explorável. Você também pode remixar mundos existentes em novas interpretações, baseando-se em suas instruções, ou explorar mundos selecionados na galeria ou por meio da ferramenta aleatória para se inspirar. Você pode então baixar vídeos do mundo que acabou de explorar.

A DeepMind está concedendo apenas 60 segundos de geração e navegação mundial no momento, em parte devido ao orçamento e às restrições de computação. Porque o Gênio 3 é um modelo auto-regressivoé necessária muita computação dedicada – o que limita o quanto o DeepMind é capaz de fornecer aos usuários.

“A razão pela qual limitamos a 60 segundos é porque queríamos levá-lo a mais usuários”, disse Fruchter. “Basicamente, quando você o usa, há um chip em algum lugar que é só seu e está sendo dedicado à sua sessão.”

Ele acrescentou que estendê-lo além de 60 segundos diminuiria o valor incremental do teste.

“Os ambientes são interessantes, mas em algum momento, devido ao seu nível de interação e ao dinamismo do ambiente, é um tanto limitado. Mesmo assim, vemos isso como uma limitação que esperamos melhorar.”

O capricho funciona, o realismo não

little-mermaid-disney- Construí castelos de marshmallow no novo gerador mundial de IA do Google
O Google recebeu uma ordem de cessar e desistir da Disney no ano passado, por isso não construiria modelos relacionados à Disney.Créditos da imagem:TechCrunch

Quando usei o modelo, as grades de segurança já estavam instaladas e funcionando. Eu não poderia gerar nada parecido com nudez, nem poderia gerar mundos que cheirassem, mesmo que remotamente, a Disney ou outro material protegido por direitos autorais. (Em dezembro, a Disney atacou o Google com um cessar-e-desistir, acusando os modelos de IA da empresa de violação de direitos autorais ao treinar os personagens e a propriedade intelectual da Disney e gerar conteúdo não autorizado, entre outras coisas.) Não consegui nem fazer com que o Genie gerasse mundos de sereias explorando terras de fantasia subaquáticas ou rainhas do gelo em seus castelos de inverno.

Ainda assim, a demonstração foi profundamente impressionante. O primeiro mundo que construí foi uma tentativa de viver uma pequena fantasia de infância, em que poderia explorar um castelo nas nuvens feito de marshmallows com um rio com calda de chocolate e árvores feitas de doces. (Sim, eu era uma criança gordinha.) Pedi à modelo para fazer isso no estilo claymation, e isso me proporcionou um mundo extravagante que eu teria comido na infância, as torres e torres em tons pastéis e brancos do castelo parecendo inchadas e saborosas o suficiente para arrancar um pedaço e mergulhá-lo no fosso de chocolate. (Vídeo acima.)

Genie6467bd1e8f644c099a541385ac4f78c3-ezgif.com-video-to-gif-converter Construí castelos de marshmallow no novo gerador mundial de IA do Google
Um mundo inspirado em “Game of Thrones” que não conseguiu gerar o fotorrealismo que eu queria.Créditos da imagem:TechCrunch

Dito isto, o Projeto Genie ainda tem alguns problemas para resolver.

Os modelos se destacaram na criação de mundos baseados em sugestões artísticas, como o uso de aquarelas, estilo anime ou estética clássica de desenho animado. Mas tendia a falhar quando se tratava de mundos fotorrealistas ou cinematográficos, muitas vezes parecendo um videogame, em vez de pessoas reais em um cenário real.

Também nem sempre respondia bem quando recebia fotos reais para trabalhar. Quando lhe dei uma foto do meu escritório e pedi para criar um mundo baseado na foto exatamente como era, ele me deu um mundo que tinha alguns dos mesmos móveis do meu escritório – uma mesa de madeira, plantas, um sofá cinza – dispostos de forma diferente. E parecia estéril, digital, nada realista.

Quando eu coloquei uma foto da minha mesa com um brinquedo de pelúcia, o Projeto Genie animou o brinquedo navegando pelo espaço e até fez com que outros objetos reagissem ocasionalmente ao passar por eles.

Essa interatividade é algo que a DeepMind está trabalhando para melhorar. Houve diversas ocasiões em que meus personagens atravessaram paredes ou outros objetos sólidos.

Genie-bingo-bronson Construí castelos de marshmallow no novo gerador mundial de IA do Google
Pedi ao Project Genie para animar um brinquedo de pelúcia (Bingo Bronson) para que ele pudesse explorar minha mesa. Créditos da imagem:TechCrunch

Quando a DeepMind lançou inicialmente o Genie 3, os pesquisadores destacaram como a arquitetura auto-regressiva do modelo significava que ele poderia lembrar o que havia gerado, então eu queria testar isso retornando a partes do ambiente que ele já gerou para ver se seria o mesmo. Na maior parte, o modelo teve sucesso. Em um caso, gerei um gato explorando outra mesa, e apenas uma vez, quando voltei para o lado direito da mesa, o modelo gerou uma segunda caneca.

A parte que achei mais frustrante foi a maneira como você navegava pelo espaço usando as setas para olhar ao redor, a barra de espaço para pular ou subir e as teclas WASD para se mover. Não sou um jogador, então isso não veio naturalmente para mim, mas as teclas muitas vezes não respondiam ou direcionavam você na direção errada. Tentar andar de um lado da sala até uma porta do outro lado muitas vezes se tornava um exercício caótico de ziguezague, como tentar dirigir um carrinho de compras com uma roda quebrada.

Fruchter me garantiu que sua equipe estava ciente dessas deficiências, lembrando-me mais uma vez que o Projeto Genie é um protótipo experimental. No futuro, disse ele, a equipe espera aumentar o realismo e melhorar as capacidades de interação, inclusive dando aos usuários mais controle sobre ações e ambientes.

“Não pensamos no (Project Genie) como um produto de ponta a ponta ao qual as pessoas possam voltar todos os dias, mas achamos que já existe um vislumbre de algo que é interessante e único e que não pode ser feito de outra maneira”, disse ele.

Share this content:

Publicar comentário