Tensormesh levanta US$ 4,5 milhões para extrair mais inferências das cargas do servidor de IA
Com o avanço da infraestrutura de IA atingindo proporções surpreendentes, há mais pressão do que nunca para extrair o máximo de inferência possível das GPUs que possuem. E para investigadores com experiência numa técnica específica, é um excelente momento para angariar fundos.
Isso faz parte da força motriz por trás Malha Tensorlançando furtivamente esta semana com US$ 4,5 milhões em financiamento inicial. O investimento foi liderado pela Laude Ventures, com financiamento anjo adicional da pioneiro do banco de dados Michael Franklin.
Tensormesh está usando o dinheiro para construir uma versão comercial do código aberto LMCache utilitário, lançado e mantido pelo cofundador da Tensormesh, Yihua Cheng. Bem utilizado, o LMCache pode reduzir os custos de inferência em até dez vezes — um poder que o tornou essencial em implantações de código aberto e atraiu integrações de pesos pesados como Google e Nvidia. Agora, a Tensormesh está planejando transformar essa reputação acadêmica em um negócio viável.
O coração do cache de valores-chave (ou cache KV), um sistema de memória usado para processar entradas complexas de forma mais eficiente, condensando-as em seus valores-chave. Em arquiteturas tradicionaiso cache KV é descartado no final de cada consulta – mas o CEO da TensorMesh, Juchen Jiang, argumenta que esta é uma enorme fonte de ineficiência.
“É como ter um analista muito inteligente lendo todos os dados, mas esquecendo o que aprendeu após cada pergunta”, diz Junchen Jiang, cofundador da Tensormesh.
Em vez de descartar esse cache, os sistemas do Tensormesh o mantêm, permitindo que ele seja reimplantado quando o modelo executa um processo semelhante em uma consulta separada. Como a memória da GPU é tão preciosa, isso pode significar a distribuição de dados em diversas camadas de armazenamento diferentes, mas a recompensa é um poder de inferência significativamente maior para a mesma carga do servidor.
A mudança é particularmente poderosa para interfaces de chat, uma vez que os modelos precisam consultar continuamente o registro crescente do chat à medida que a conversa avança. Os sistemas agênticos têm um problema semelhante, com um registro crescente de ações e objetivos.
Em teoria, essas são mudanças que as empresas de IA podem executar por conta própria – mas a complexidade técnica torna isso uma tarefa difícil. Dado o trabalho da equipe Tensormesh pesquisando o processo e a complexidade dos detalhes em si, a empresa aposta que haverá muita demanda por um produto pronto para uso.
“Manter o cache KV em um sistema de armazenamento secundário e reutilizá-lo de forma eficiente, sem desacelerar todo o sistema, é um problema muito desafiador”, diz Jiang. “Vimos pessoas contratarem 20 engenheiros e gastarem três ou quatro meses para construir um sistema desse tipo. Ou eles podem usar nosso produto e fazer isso de forma muito eficiente.”
Share this content:



Publicar comentário