A inovação que faz com que os rostos dos robôs pareçam menos assustadores

A inovação que faz com que os rostos dos robôs pareçam menos assustadores

A inovação que faz com que os rostos dos robôs pareçam menos assustadores

Quando as pessoas conversam cara a cara, quase metade de sua atenção é atraída para o movimento dos lábios. Apesar disso, os robôs ainda têm grande dificuldade em movimentar a boca de forma convincente. Mesmo as máquinas humanóides mais avançadas muitas vezes dependem de movimentos bucais rígidos e exagerados que lembram uma marionete, supondo que tenham um rosto.

Os humanos dão enorme importância à expressão facial, especialmente aos movimentos sutis dos lábios. Embora andar desajeitado ou gestos desajeitados com as mãos possam ser perdoados, mesmo pequenos erros nos movimentos faciais tendem a se destacar imediatamente. Esta sensibilidade contribui para o que os cientistas chamam de “Vale Estranho”, um fenômeno onde os robôs parecem mais perturbadores do que reais. O movimento inadequado dos lábios é um dos principais motivos pelos quais os robôs podem parecer estranhos ou emocionalmente monótonos, mas os pesquisadores dizem que isso pode mudar em breve.

Um robô que aprende a mover os lábios

Em 15 de janeiro, uma equipe da Columbia Engineering anunciou um grande avanço na robótica humanóide. Pela primeira vez, os pesquisadores construíram um robô que pode aprender os movimentos faciais dos lábios para falar e cantar. Suas descobertas, publicadas em Robótica Científicamostram o robô formando palavras em vários idiomas e até cantando uma música de seu álbum de estreia gerado por IA, “hello world_”.

Em vez de confiar em regras predefinidas, o robô aprendeu através da observação. Começou descobrindo como controlar seu próprio rosto usando 26 motores faciais separados. Para fazer isso, observou seu reflexo em um espelho e depois estudou horas de fala humana e vídeos de canto no YouTube para entender como as pessoas movem os lábios.

“Quanto mais interagir com os humanos, melhor ficará”, disse Hod Lipson, James e Sally Scapa Professor de Inovação no Departamento de Engenharia Mecânica e diretor do Laboratório de Máquinas Criativas de Columbia, onde a pesquisa foi realizada.

Veja o link para o vídeo “Lip Syncing Robot” abaixo.

Robô se observa falando

Criar movimentos labiais com aparência natural em robôs é especialmente difícil por dois motivos principais. Primeiro, requer hardware avançado, incluindo material facial flexível e muitos pequenos motores que devem operar silenciosamente e em perfeita coordenação. Em segundo lugar, o movimento labial está intimamente ligado aos sons da fala, que mudam rapidamente e dependem de sequências complexas de fonemas.

Os rostos humanos são controlados por dezenas de músculos localizados sob a pele macia, permitindo que os movimentos fluam naturalmente com a fala. A maioria dos robôs humanóides, entretanto, possui faces rígidas com movimentos limitados. Os movimentos dos lábios são normalmente ditados por regras fixas, o que leva a expressões mecânicas e não naturais que parecem perturbadoras.

Para enfrentar esses desafios, a equipe da Columbia projetou uma face robótica flexível com um grande número de motores e permitiu que o robô aprendesse o controle facial por conta própria. O robô foi colocado em frente a um espelho e começou a experimentar milhares de expressões faciais aleatórias. Tal como uma criança que explora o seu reflexo, aprendeu gradualmente quais os movimentos motores que produziam formas faciais específicas. Este processo baseou-se no que os pesquisadores chamam de modelo de linguagem “visão para ação” (VLA).

Aprendendo com a fala e o canto humanos

Depois de entender como funcionava seu próprio rosto, o robô viu vídeos de pessoas conversando e cantando. O sistema de IA observou como o formato da boca mudava com diferentes sons, permitindo associar a entrada de áudio diretamente ao movimento motor. Com esta combinação de autoaprendizagem e observação humana, o robô poderia converter o som em movimentos sincronizados dos lábios.

A equipe de pesquisa testou o sistema em vários idiomas, estilos de fala e exemplos musicais. Mesmo sem entender o significado do áudio, o robô conseguiu mover os lábios no ritmo dos sons que ouvia.

Os pesquisadores reconhecem que os resultados não são perfeitos. “Tivemos dificuldades específicas com sons fortes como ‘B’ e com sons que envolviam lábios franzidos, como ‘W’. Mas essas habilidades provavelmente irão melhorar com o tempo e a prática”, disse Lipson.

Além da sincronização labial para a comunicação real

Os pesquisadores enfatizam que a sincronização labial é apenas uma parte de um objetivo mais amplo. Seu objetivo é fornecer aos robôs formas mais ricas e naturais de se comunicarem com as pessoas.

“Quando a capacidade de sincronização labial é combinada com IA de conversação, como ChatGPT ou Gemini, o efeito adiciona uma profundidade totalmente nova à conexão que o robô forma com o humano”, disse Yuhang Hu, que liderou o estudo como parte de seu trabalho de doutorado. “Quanto mais o robô observar os humanos conversando, melhor será a imitação dos gestos faciais diferenciados com os quais podemos nos conectar emocionalmente.”

“Quanto mais longa for a janela de contexto da conversa, mais sensíveis ao contexto se tornarão esses gestos”, acrescentou Hu.

Expressão facial como o elo perdido

A equipe de pesquisa acredita que a expressão emocional através do rosto representa uma grande lacuna na robótica atual.

“Grande parte da robótica humanóide hoje está focada no movimento das pernas e das mãos, para atividades como caminhar e agarrar”, disse Lipson. “Mas o afeto facial é igualmente importante para qualquer aplicação robótica que envolva interação humana.”

Lipson e Hu esperam que as expressões faciais realistas se tornem cada vez mais importantes à medida que os robôs humanóides são introduzidos no entretenimento, na educação, na saúde e no cuidado aos idosos. Alguns economistas estimam que mais de um bilhão de robôs humanóides poderiam ser produzidos na próxima década.

“Não há futuro onde todos esses robôs humanóides não tenham rosto. E quando finalmente tiverem um rosto, precisarão mover os olhos e os lábios adequadamente, ou permanecerão misteriosos para sempre”, disse Lipson.

“Nós, humanos, estamos programados dessa forma e não podemos evitar. Estamos perto de cruzar o vale misterioso”, acrescentou Hu.

Riscos e progresso responsável

Este trabalho baseia-se no esforço de longa data de Lipson para ajudar os robôs a formar conexões mais naturais com as pessoas, aprendendo comportamentos faciais, como sorriso, contato visual e fala. Ele argumenta que essas habilidades devem ser aprendidas por meio da observação, e não programadas por meio de instruções rígidas.

“Algo mágico acontece quando um robô aprende a sorrir ou a falar apenas observando e ouvindo os humanos”, disse ele. “Sou um roboticista cansado, mas não posso deixar de sorrir de volta para um robô que sorri espontaneamente para mim.”

Hu enfatizou que o rosto humano continua a ser uma das ferramentas mais poderosas de comunicação e que os cientistas estão apenas começando a compreender como funciona.

“Robôs com essa habilidade terão claramente uma capacidade muito melhor de se conectar com humanos porque uma parte tão significativa de nossa comunicação envolve linguagem corporal facial, e todo esse canal ainda está inexplorado”, disse Hu.

Os pesquisadores também reconhecem as preocupações éticas decorrentes da criação de máquinas que possam interagir emocionalmente com os humanos.

“Esta será uma tecnologia poderosa. Temos que avançar devagar e com cuidado, para que possamos colher os benefícios e ao mesmo tempo minimizar os riscos”, disse Lipson.

Share this content:

Publicar comentário