O melhor guia para identificar a escrita de IA vem da Wikipedia
Todos nós sentimos a crescente suspeita de que algo que estamos lendo foi escrito por um grande modelo de linguagem – mas é extremamente difícil de definir. Durante alguns meses do ano passado, todos ficaram convencidos de que palavras específicas como “aprofundar” ou “sublinhado” poderiam revelar modelos, mas a evidência é escassa e, à medida que os modelos se tornaram mais sofisticados, as palavras reveladoras tornaram-se mais difíceis de rastrear.
Mas acontece que o pessoal da Wikipédia ficou muito bom em sinalizar prosa escrita por IA – e o guia público do grupo para “Sinais de escrita de IA” é o melhor recurso que encontrei para determinar se suas suspeitas são justificadas. (Crédito ao poeta Jameson Fitzpatrick, que apontou o documento em X.)
Desde 2023, os editores da Wikipedia têm trabalhado para controlar os envios de IA, um projeto que eles chamam de Projeto AI Cleanup. Com milhões de edições chegando todos os dias, há muito material para se basear e, no estilo clássico do editor da Wikipédia, o grupo produziu um guia de campo detalhado e repleto de evidências.
Para começar, o guia confirma o que já sabemos: ferramentas automatizadas são basicamente inúteis. Em vez disso, o guia concentra-se em hábitos e frases que são raros na Wikipedia, mas comuns na Internet em geral (e, portanto, comuns nos dados de treinamento do modelo). De acordo com o guia, os envios de IA passarão muito tempo enfatizando por que um assunto é importante, geralmente em termos genéricos como “um momento crucial” ou “um movimento mais amplo”. Os modelos de IA também gastarão muito tempo detalhando pequenos anúncios na mídia para fazer o assunto parecer notável – o tipo de coisa que você esperaria de uma biografia pessoal, mas não de uma fonte independente.
O guia sinaliza uma peculiaridade particularmente interessante em torno de cláusulas de restrição com reivindicações de importância nebulosas. Os modelos dirão que algum evento ou detalhe está “enfatizando o significado” de uma coisa ou de outra, ou “refletindo a relevância contínua” de alguma ideia geral. (Os nerds da gramática saberão isso como “particípio presente”.) É um pouco difícil de definir, mas uma vez que você possa reconhecê-lo, você o verá em todos os lugares.
Há também uma tendência para uma linguagem de marketing vaga, o que é extremamente comum na internet. As paisagens são sempre pitorescas, as vistas são sempre de tirar o fôlego e tudo é limpo e moderno. Como disseram os editores, “parece mais a transcrição de um comercial de TV”.
Vale a pena ler o guia na íntegra, mas fiquei muito impressionado. Antes disso, eu teria dito que a prosa do LLM estava se desenvolvendo rápido demais para ser definida. Mas os hábitos aqui sinalizados estão profundamente enraizados na forma como os modelos de IA são treinados e implementados. Eles podem ser disfarçados, mas será difícil eliminá-los completamente. E se o público em geral ficar mais experiente na identificação da prosa da IA, isso poderá ter todo tipo de consequências interessantes.
Share this content:



Publicar comentário