Este novo chip 3D pode quebrar o maior gargalo da IA

Este novo chip 3D pode quebrar o maior gargalo da IA

Este novo chip 3D pode quebrar o maior gargalo da IA

Engenheiros da Universidade de Stanford, da Universidade Carnegie Mellon, da Universidade da Pensilvânia e do Instituto de Tecnologia de Massachusetts trabalharam com a SkyWater Technology, a maior fundição de semicondutores pura baseada exclusivamente nos EUA, para criar um novo chip de computador multicamadas. A equipe afirma que sua arquitetura pode marcar uma grande mudança no hardware de IA e fortalecer a inovação doméstica em semicondutores.

Ao contrário da maioria dos chips atuais, que são em sua maioria planos e 2D, este protótipo foi construído para subir. As peças ultrafinas são empilhadas como o chão de um edifício alto, e a fiação vertical funciona como muitos elevadores rápidos que movem grandes quantidades de dados rapidamente. Com um número recorde de conexões verticais e um layout bem entrelaçado que coloca a memória e as unidades de computação próximas umas das outras, o design evita lentidão que limita o progresso em chips planos. Em testes e simulações de hardware, o chip 3D supera os chips 2D em aproximadamente uma ordem de grandeza.

Os pesquisadores já fizeram chips 3D experimentais em laboratórios acadêmicos antes, mas a equipe diz que esta é a primeira vez que um deles apresenta melhorias claras de desempenho e é produzido em uma fundição comercial. “Isso abre a porta para uma nova era de produção e inovação de chips”, disse Subhasish Mitra, professor William E. Ayer em Engenharia Elétrica e professor de ciência da computação na Universidade de Stanford, e investigador principal de um novo artigo que descreve o chip apresentado no 71º Encontro Anual Internacional de Dispositivos Eletrônicos do IEEE (IEDM). “Avanços como este são a forma como chegamos às melhorias de desempenho de hardware de 1.000 vezes que os futuros sistemas de IA exigirão.”

Por que os Flat Chips lutam com a IA moderna

Grandes modelos de IA, como ChatGPT e Claude, transportam constantemente enormes volumes de dados entre a memória, que contém informações, e as unidades de computação que as processam.

Nos chips 2D convencionais, tudo fica em uma superfície e a memória é limitada e espalhada, de modo que os dados são forçados a passar por um pequeno número de caminhos longos e lotados. As peças de computação podem funcionar muito mais rápido do que os dados podem ser entregues, e o chip não consegue manter memória suficiente por perto. O resultado é uma espera frequente. Os engenheiros chamam esse problema de “parede de memória”, onde a velocidade de processamento ultrapassa a capacidade do chip de alimentá-lo com dados.

Durante anos, os fabricantes de chips resistiram à parede da memória, encolhendo os transistores, os minúsculos interruptores que controlam os cálculos e armazenam dados, e empacotando mais deles em cada chip. Mas os pesquisadores dizem que essa abordagem está se aproximando de limites físicos rígidos, conhecidos como “muro da miniaturização”.

O novo design visa ultrapassar ambos os limites construindo para cima. “Ao integrar memória e computação verticalmente, podemos mover muito mais informações com muito mais rapidez, assim como os bancos de elevadores em um arranha-céu permitem que muitos residentes viajem entre os andares ao mesmo tempo”, disse Tathagata Srimani, professor assistente de engenharia elétrica e de computação na Universidade Carnegie Mellon, autor sênior do artigo, que iniciou o trabalho como pós-doutorado orientado por Mitra.

“A parede da memória e a parede da miniaturização formam uma combinação mortal”, disse Robert M. Radway, professor assistente de engenharia elétrica e de sistemas na Universidade da Pensilvânia e coautor do estudo. “Nós atacamos isso de frente, integrando firmemente memória e lógica e, em seguida, construindo em densidade extremamente alta. É como a Manhattan da computação – podemos acomodar mais pessoas em menos espaço.”

Como o chip 3D monolítico é fabricado

Muitos esforços anteriores de chips 3D seguiram um caminho mais simples, empilhando chips separados. Isso pode ajudar, mas as ligações entre as camadas são muitas vezes relativamente difíceis, limitadas em número e podem tornar-se gargalos.

Esta equipe usou uma abordagem diferente. Em vez de fazer chips separados e juntá-los, eles constroem cada nova camada diretamente sobre a anterior em um único fluxo contínuo. Este método, conhecido como integração 3D “monolítica”, utiliza temperaturas baixas o suficiente para evitar danos aos circuitos já construídos abaixo. Isso torna possível empacotar as camadas com mais firmeza e criar conexões muito mais densas entre elas.

Um ponto chave, dizem os pesquisadores, é que todo o processo foi realizado em uma fundição comercial nacional de silício. “Transformar um conceito acadêmico de ponta em algo que uma fábrica comercial possa construir é um enorme desafio”, disse o coautor Mark Nelson, vice-presidente de operações de desenvolvimento de tecnologia da SkyWater Technology. “Isso mostra que essas arquiteturas avançadas não são apenas possíveis no laboratório – elas podem ser produzidas internamente, em escala, que é o que a América precisa para permanecer na vanguarda da inovação em semicondutores”.

Ganhos de desempenho e o que vem a seguir para hardware de IA

Nos primeiros testes de hardware, o protótipo superou chips 2D comparáveis ​​em cerca de quatro vezes. As simulações da equipe sugerem ganhos ainda maiores à medida que o design fica mais alto, com mais camadas empilhadas de memória e computação. Com níveis adicionais, os modelos mostram uma melhoria de até doze vezes em cargas de trabalho reais de IA, incluindo cargas de trabalho derivadas do modelo LLaMA de código aberto da Meta.

Os pesquisadores também destacam um retorno de longo prazo. Eles dizem que a arquitetura oferece um caminho prático para melhorias de 100 a 1.000 vezes no produto de atraso de energia (EDP), uma métrica que combina velocidade e eficiência energética. Ao reduzir a distância que os dados precisam percorrer e adicionar muito mais rotas verticais para movimentação, o chip pode aumentar o rendimento e, ao mesmo tempo, reduzir a energia por operação, uma combinação que tem sido difícil de conseguir com designs planos convencionais.

A equipe afirma que a importância do trabalho não é apenas a velocidade. Ao demonstrar que chips 3D monolíticos podem ser fabricados nos Estados Unidos, eles argumentam que isso fornece um modelo para um novo período de inovação de hardware nacional, onde os chips mais avançados podem ser projetados e fabricados em solo americano.

Eles também dizem que a mudança para a integração 3D vertical e monolítica exigirá uma nova geração de engenheiros treinados nesses métodos, semelhante à forma como o boom dos circuitos integrados da década de 1980 foi alimentado por estudantes que aprenderam o design e a fabricação de chips em laboratórios dos EUA. Por meio de colaborações e esforços de financiamento, incluindo o Microelectronics Commons California-Pacific-Northwest AI Hardware Hub (Northwest-AI-Hub), estudantes e pesquisadores já estão sendo preparados para impulsionar a inovação americana em semicondutores.

“Avanços como este têm, obviamente, uma questão de desempenho”, disse H.-S. Philip Wong, professor Willard R. e Inez Kerr Bell da Escola de Engenharia de Stanford e investigador principal do Northwest-AI-Hub. “Mas também tratam de capacidade. Se pudermos construir chips 3D avançados, poderemos inovar mais rapidamente, responder mais rapidamente e moldar o futuro do hardware de IA.”

Este estudo foi realizado na Escola de Engenharia da Universidade de Stanford, na Faculdade de Engenharia da Universidade Carnegie Mellon, na Escola de Engenharia e Ciências Aplicadas da Universidade da Pensilvânia e no Instituto de Tecnologia de Massachusetts, e todas as fabricações foram concluídas na SkyWater Technology’s Bloomington, Minnesota, Foundry. O apoio veio da Defense Advanced Research Projects Agency, do US National Science Foundation Graduate Research Fellowship Program, da Samsung, do Stanford Precourt Institute for Energy, da Stanford SystemX Alliance, do Microelectronics Commons AI Hardware Hub do Departamento de Guerra, do Departamento de Energia dos EUA e do Programa Future of Semiconductors da National Science Foundation (2425218).

Coautores adicionais de Stanford incluem Suhyeong Choi, Samuel Dayo, Andrew Bechdolt, Shengman Li, Dennis T. Rich e RH Yang. Autores adicionais são da CMU e do MIT.

Share this content:

Publicar comentário