Tecnologia

Tensormesh levanta US$ 4,5 milhões para extrair mais inferências das cargas do servidor de IA

Com o avanço da infraestrutura de IA atingindo proporções surpreendentes, há mais pressão do que nunca para extrair o máximo de inferência possível das GPUs que possuem. E para investigadores com experiência numa técnica específica, é um excelente momento para angariar fundos.

Isso faz parte da força motriz por trás Malha Tensorlançando furtivamente esta semana com US$ 4,5 milhões em financiamento inicial. O investimento foi liderado pela Laude Ventures, com financiamento anjo adicional da pioneiro do banco de dados Michael Franklin.

Tensormesh está usando o dinheiro para construir uma versão comercial do código aberto LMCache utilitário, lançado e mantido pelo cofundador da Tensormesh, Yihua Cheng. Bem utilizado, o LMCache pode reduzir os custos de inferência em até dez vezes — um poder que o tornou essencial em implantações de código aberto e atraiu integrações de pesos pesados como Google e Nvidia. Agora, a Tensormesh está planejando transformar essa reputação acadêmica em um negócio viável.

O coração do cache de valores-chave (ou cache KV), um sistema de memória usado para processar entradas complexas de forma mais eficiente, condensando-as em seus valores-chave. Em arquiteturas tradicionaiso cache KV é descartado no final de cada consulta – mas o CEO da TensorMesh, Juchen Jiang, argumenta que esta é uma enorme fonte de ineficiência.

“É como ter um analista muito inteligente lendo todos os dados, mas esquecendo o que aprendeu após cada pergunta”, diz Junchen Jiang, cofundador da Tensormesh.

Em vez de descartar esse cache, os sistemas do Tensormesh o mantêm, permitindo que ele seja reimplantado quando o modelo executa um processo semelhante em uma consulta separada. Como a memória da GPU é tão preciosa, isso pode significar a distribuição de dados em diversas camadas de armazenamento diferentes, mas a recompensa é um poder de inferência significativamente maior para a mesma carga do servidor.

A mudança é particularmente poderosa para interfaces de chat, uma vez que os modelos precisam consultar continuamente o registro crescente do chat à medida que a conversa avança. Os sistemas agênticos têm um problema semelhante, com um registro crescente de ações e objetivos.

Em teoria, essas são mudanças que as empresas de IA podem executar por conta própria – mas a complexidade técnica torna isso uma tarefa difícil. Dado o trabalho da equipe Tensormesh pesquisando o processo e a complexidade dos detalhes em si, a empresa aposta que haverá muita demanda por um produto pronto para uso.

“Manter o cache KV em um sistema de armazenamento secundário e reutilizá-lo de forma eficiente, sem desacelerar todo o sistema, é um problema muito desafiador”, diz Jiang. “Vimos pessoas contratarem 20 engenheiros e gastarem três ou quatro meses para construir um sistema desse tipo. Ou eles podem usar nosso produto e fazer isso de forma muito eficiente.”

Share this content:

Tensormesh levanta US$ 4,5 milhões para extrair mais inferências das cargas do servidor de IA

Engenheiros fazem grandes ‘avanços’ na tecnologia de análise de marcha

OpenAI removeu salvaguardas antes do suicídio de adolescente, diz família

Related Posts

Publicar comentário Cancelar resposta