Novo projeto torna os dados da Wikipedia mais acessíveis a IA
Na quarta -feira, a Wikimedia Deutschland anunciou um novo banco de dados que tornará a riqueza de conhecimento da Wikipedia mais acessível aos modelos de IA.
Chamada de projeto de incorporação do Wikidata, o sistema aplica uma pesquisa semântica baseada em vetores-uma técnica que ajuda os computadores a entender o significado e as relações entre as palavras-com os dados existentes sobre a Wikipedia e suas plataformas irmãs, composta por quase 120 milhões de entradas.
Combinado com o novo suporte ao Model Context Protocol (MCP), um padrão que ajuda os sistemas de IA a se comunicarem com as fontes de dados, o projeto torna os dados mais acessíveis às consultas de linguagem natural da LLMS.
O projeto foi realizado pela filial alemã da Wikimedia em colaboração com a empresa de pesquisa neural Jina.ai e DataStax, uma empresa de dados de treinamento em tempo real de propriedade da IBM.
O Wikidata oferece dados legíveis por máquina das propriedades da Wikimedia por anos, mas as ferramentas pré-existentes permitiram pesquisas de palavras-chave e consultas SPARQL, um idioma de consulta especializado. O novo sistema funcionará melhor com os sistemas de geração de recuperação de recuperação (RAG) que permitem que os modelos de IA puxem informações externas, dando aos desenvolvedores a chance de fundamentar seus modelos em conhecimento verificado pelos editores da Wikipedia.
Os dados também são estruturados para fornecer contexto semântico crucial. Consultando o banco de dados para A palavra “cientista”. Por exemplo, produzirá listas de importantes cientistas nucleares e cientistas que trabalharam na Bell Labs. Há também traduções da palavra “cientista” em diferentes idiomas, uma imagem de cientistas com limpeza da Wikimedia e extrapolações para conceitos relacionados como “pesquisador” e “acadêmico”.
O banco de dados é Acessível publicamente em ferramentas. Wikidata também está hospedando um webinar para desenvolvedores interessados em 9 de outubro.
Evento do TechCrunch
São Francisco
|
27-29 de outubro de 2025
O novo projeto ocorre quando os desenvolvedores de IA estão buscando fontes de dados de alta qualidade que podem ser usadas para ajustar os modelos. Os próprios sistemas de treinamento tornaram -se mais sofisticados – geralmente montados como ambientes de treinamento complexos, em vez de conjuntos de dados simples – mas ainda exigem dados estreitamente com curadoria para funcionar bem. Para implantações que requerem alta precisão, a necessidade de dados confiáveis é particularmente urgente e, embora alguns possam olhar para baixo na Wikipedia, seus dados são significativamente mais orientados para fatos do que os conjuntos de dados captadores como o rastreamento comumque é uma enorme coleção de páginas da web raspadas pela Internet.
Em alguns casos, o esforço para dados de alta qualidade pode ter consequências caras para os laboratórios de IA. Em agosto, o Antrópico se ofereceu para resolver um processo com um grupo de autores cujos trabalhos foram usados como material de treinamento, concordando em pagar US $ 1,5 bilhão para encerrar quaisquer reivindicações de irregularidades.
Em comunicado à imprensa, o gerente de projeto da Wikidata AI, Philippe Saadé, enfatizou a independência de seu projeto dos principais laboratórios de IA ou grandes empresas de tecnologia. “Este lançamento de incorporação do projeto mostra que a IA poderosa não precisa ser controlada por um punhado de empresas”, disse Saadé a repórteres. “Pode ser aberto, colaborativo e construído para servir a todos.”
Share this content:
Publicar comentário