Por dentro do plano de Fei-Fei Li para construir mundos virtuais alimentados por IA
O progresso recente da IA seguiu um padrão. Em texto, imagem, áudio e vídeo, depois que os fundamentos técnicos corretos foram descobertos, levou apenas alguns anos para que os resultados gerados pela IA passassem de meramente transitáveis a indistinguíveis da criação humana. Embora seja cedo, avanços recentes sugerem que os mundos virtuais – ambientes 3D que você pode explorar e interagir – podem ser os próximos.
Esta é a aposta feita pela pioneira pesquisadora de IA Fei-Fei Li, muitas vezes chamada de “madrinha” da IA por suas contribuições à visão computacional. Em novembro, sua nova startup, Laboratórios Mundiaislançou sua primeira oferta comercial: uma plataforma chamada Mármoreonde os usuários podem criar ambientes 3D exportáveis a partir de prompts de texto, imagem ou vídeo.
A plataforma pode ser imediatamente útil para profissionais de design, permitindo a automatização de alguns trabalhos criativos tecnicamente complexos. Mas o objetivo final de Li é muito mais ambicioso: criar não apenas mundos virtuais, mas também o que ela chama de “inteligência espacial” ou, segundo sua recente manifesto“a fronteira além da linguagem – a capacidade que liga imaginação, percepção e ação”. Os sistemas de IA já podem ver o mundo – com inteligência espacial, argumenta ela, eles poderiam começar a interagir de forma significativa com ele.
Mundos sob demanda
Embora já existam mundos virtuais na forma de videogames com os quais interagimos por meio de telas ou fones de ouvido, criá-los é tecnicamente complexo e trabalhoso. Com a IA, os mundos virtuais poderiam ser criados com muito mais facilidade, personalizados para seus usuários e expandidos infinitamente – pelo menos em teoria.
Na prática, os modelos mundiais – incluindo os de outras empresas, como o Google DeepMind Gênio 3– ainda são precoces em relação ao seu potencial. Ben Mildenhall, um dos cofundadores de Li no World Labs, diz que espera que eles sigam a mesma trajetória que vimos com texto, áudio e vídeo – pessoas passando de “isso é fofo” para “isso é interessante” e “não sabia que isso era feito por IA”.
Na verdade, os modelos de geração de vídeo por IA melhoraram rapidamente. Essa melhoria está por trás do recente sucesso viral dos modelos OpenAI e Midjourney. Empresas como Captions, Runway e Synthesia também construíram negócios em torno de vídeos gerados por IA. De acordo com Vincent Sitzmann, professor assistente do MIT e especialista em modelagem mundial de IA, podemos pensar nos modelos de vídeo como “modelos de proto-mundo”.
A plataforma mais recente de Li, Marble, oferece várias maneiras de criar. Você pode apresentá-lo com uma descrição escrita, ou com fotos, vídeos ou uma cena 3D existente, e ele mostrará um “mundo” no qual você pode navegar a partir de uma perspectiva de primeira pessoa, como em um videogame. Mas esses mundos – inicialmente estáticos, embora os desenvolvedores possam adicionar movimento e muito mais usando ferramentas especializadas – têm limites claros. Leva apenas alguns instantes de exploração antes que os visuais comecem a distorcer e o mundo assuma uma estrutura alucinatória e incoerente.
Modelar mundos inteiros é muito mais difícil do que gerar vídeos. Mildenhall argumenta que, como existe uma barreira de entrada muito maior para a criação de mundos 3D do que para a escrita de palavras, você começa a ver “vislumbres de valor” em ferramentas como o Marble muito antes. “O World Labs mostrou o que é possível se você integrar e dimensionar uma série de avanços que a comunidade de visão computacional obteve na última década – é uma conquista impressionante”, diz Sitzmann. “Pela primeira vez, você tem uma ideia dos tipos de produtos que podem ser possíveis com isso.”
Li diz que “podemos usar esta tecnologia para criar muitos mundos virtuais que conectam, ampliam ou complementam nosso mundo físico”. A defesa da utilização de modelos mundiais para criar novas experiências de entretenimento é bastante clara. E em domínios como a arquitetura e a engenharia, “podemos tentar mil vezes, explorando muitas alternativas potenciais a um custo muito mais baixo”, diz Mildenhall. Mas para os outros casos de uso elogiados – robótica, ciência e educação – permanecem grandes obstáculos.
Um caminho a percorrer
Embora tenhamos uma infinidade de dados de vídeo e câmeras para treinar modelos de vídeo, os dados de treinamento corretos para robôs – especialmente robôs humanóides – são muito mais difíceis de encontrar. Faltam-nos dados proprioceptivos ou “dados de acção”, diz Sitzmann, que diriam a um robô quais os movimentos motores que correspondem a acções físicas.
Para carros autônomos, que possuem apenas alguns comandos – marchas, pedais e volante – podemos “coletar milhões de horas de vídeo que correspondem às ações que os motoristas humanos realizaram. Mas um robô humanoide tem todas essas outras articulações e ações que pode realizar. E não temos dados para isso”, diz ele.
No seu manifesto, Li argumenta que os modelos mundiais desempenharão um “papel definidor” na resolução do problema de dados para a robótica. Embora o manifesto apresente uma visão, Sitzmann diz que “não está realmente a responder à questão” de como exactamente os modelos mundiais resolverão a robótica no futuro, uma vez que um simulador fiel exigiria dados que correlacionassem o movimento com a acção, o que actualmente nos falta.
Existem também desafios quando se trata de utilizar modelos mundiais para a ciência e a educação. Para entretenimento, é suficiente que as coisas pareçam realistas. Mas para a ciência e a educação, a fidelidade à dinâmica do mundo real que está a ser simulada é indiscutivelmente mais importante. “Eu (poderia) entrar e experimentar o interior de uma célula”, ou “se sou um cirurgião treinado para fazer cirurgia laparoscópica, (poderia) estar dentro de um intestino”, diz Li, discutindo o que os futuros modelos mundiais poderiam oferecer. Mas é claro que uma simulação de uma célula ou de uma cirurgia só é útil na medida em que for precisa. Os fundadores do World Labs estão perfeitamente conscientes dos compromissos entre realismo e fidelidade, e estão optimistas de que, em algum momento, os modelos serão bons o suficiente para fornecer ambos.
E se funcionar?
Comparado com a linguagem, “o raciocínio espacial é muito pior na IA de hoje”, diz Li. É verdade. Mas embora Li aposte que a resolução da inteligência espacial (como a define a sua empresa) é necessária para que a IA avance para além de um certo ponto – um trilhão preocupação com o dólar – resta saber se isso se mantém. Se os modelos de linguagem multimodais existentes, como o ChatGPT, irão “atingir uma parede” e parar de melhorar repentinamente, também é uma questão em aberto. O que sabemos é que, em toda a indústria e em todas as modalidades, os modelos estão a melhorar.
Mildenhall imagina que chegaremos a um ponto em que “você poderá experimentar qualquer coisa que possa experimentar na realidade dentro de um modelo”. Em tal mundo, você poderia “envolver-se multimodalmente com a coisa e transformá-la à sua vontade em qualquer impulso que você tiver”, diz ele.
Com os modelos de raciocínio e a realidade virtual melhorando em paralelo, pode-se imaginar um futuro estranho, onde cada um de nós terá acesso aos nossos próprios mundos generativos infinitamente expansivos e envolventes. Em vez de assistir a um vídeo TikTok de um gato, um gato está bem na sua frente. Em vez de rolar, explorar. Um mundo assim se curvaria à sua vontade. Alguns usuários podem se apaixonar por ele, assim como hoje se apaixonam pelos chatbots. “Atualmente não estamos nesse nível”, diz Christoph Lassner, outro cofundador do World Labs. Sitzmann concorda que a ideia “não é maluca”, embora observe que os custos proibitivos e os extensos tempos de renderização sugerem que esse futuro ainda está relativamente distante.
Li é enfático ao afirmar que esta tecnologia aumentará e beneficiará os humanos e que a nossa relação com ela permanecerá colaborativa. Por que? “Porque acredito na humanidade”, diz ela. “Se você olhar para o arco da história, a civilização progride e nosso conhecimento aumenta.” Ela rejeita visões utópicas e distópicas. “Acho que todos nós temos a responsabilidade de levar a IA a um estado melhor à medida que ela se torna mais poderosa”, diz ela. “Todos nós deveríamos querer que a humanidade prevaleça e prospere. Portanto, onde reside a sua esperança deve ser para onde vão as suas ações.”
Share this content:



Publicar comentário