Por que as startups de IA estão controlando os dados com as próprias mãos
Durante uma semana neste verão, Taylor e sua colega de quarto usaram câmeras GoPro amarradas na testa enquanto pintavam, esculpiam e faziam tarefas domésticas. Eles estavam treinando um modelo de visão de IA, sincronizando cuidadosamente suas imagens para que o sistema pudesse obter vários ângulos do mesmo comportamento. Foi um trabalho difícil em muitos aspectos, mas eles foram bem pagos por isso – e permitiu que Taylor passasse a maior parte do dia fazendo arte.
“Acordamos, fizemos nossa rotina normal e depois amarramos as câmeras na cabeça e sincronizamos os horários”, ela me contou. “Depois preparávamos nosso café da manhã e lavávamos a louça. Depois seguíamos caminhos separados e trabalhávamos na arte.”
Eles foram contratados para produzir cinco horas de filmagens sincronizadas por dia, mas Taylor rapidamente aprendeu que precisava reservar sete horas por dia para o trabalho, para deixar tempo suficiente para pausas e recuperação física.
“Isso lhe daria dores de cabeça”, disse ela. “Você tira e fica apenas um quadrado vermelho na sua testa.”
Taylor, que pediu para não informar seu sobrenome, trabalhava como freelancer de dados para Turing Labs, uma empresa de IA que a conectou ao TechCrunch. O objetivo de Turing não era ensinar a IA a fazer pinturas a óleo, mas sim adquirir habilidades mais abstratas em torno da resolução sequencial de problemas e do raciocínio visual. Ao contrário de um grande modelo de linguagem, o modelo de visão de Turing seria treinado inteiramente em vídeo – e a maior parte seria coletada diretamente por Turing.
Ao lado de artistas como Taylor, Turing está contratando chefs, trabalhadores da construção civil e eletricistas – qualquer pessoa que trabalhe com as mãos. O diretor de AGI da Turing, Sudarshan Sivaraman, disse ao TechCrunch que a coleta manual é a única maneira de obter um conjunto de dados suficientemente variado.
“Estamos fazendo isso para muitos tipos diferentes de trabalho de colarinho azul, para que tenhamos uma diversidade de dados na fase de pré-treinamento”, disse Sivaraman ao TechCrunch. “Depois de capturarmos todas essas informações, os modelos poderão entender como uma determinada tarefa é executada.”
Evento Techcrunch
São Francisco
|
27 a 29 de outubro de 2025
O trabalho de Turing em modelos de visão faz parte de uma mudança crescente na forma como as empresas de IA lidam com os dados. Onde os conjuntos de treinamento antes eram extraídos livremente da web ou coletados de anotadores mal pagos, as empresas agora estão pagando caro por dados cuidadosamente selecionados.
Com o poder bruto da IA já estabelecido, as empresas estão olhando para os dados de treinamento proprietários como uma vantagem competitiva. E em vez de delegar a tarefa aos empreiteiros, muitas vezes eles próprios assumem o trabalho.
A empresa de e-mail Fixadorque usa modelos de IA para classificar e-mails e redigir respostas, é um exemplo.
Após alguns experimentos iniciais, o fundador Richard Hollingsworth descobriu que a melhor abordagem era usar uma série de pequenos modelos com dados de treinamento bem focados. Ao contrário de Turing, Fyxer está construindo a partir do modelo básico de outra pessoa – mas o insight subjacente é o mesmo.
“Percebemos que a qualidade dos dados, e não a quantidade, é o que realmente define o desempenho”, disse-me Hollingsworth.
Em termos práticos, isso significou algumas escolhas de pessoal não convencionais. No início, os engenheiros e gerentes da Fyxer às vezes eram superados em número de quatro para um pelos assistentes executivos necessários para treinar o modelo, diz Hollingsworth.
“Usamos muitos assistentes executivos experientes porque precisávamos treinar os fundamentos sobre se um e-mail deveria ser respondido”, disse ele ao TechCrunch. “É um problema muito voltado para as pessoas. Encontrar ótimas pessoas é muito difícil.”
O ritmo de coleta de dados nunca diminuiu, mas com o tempo Hollingsworth tornou-se mais cuidadoso com os conjuntos de dados, preferindo conjuntos menores de conjuntos de dados com curadoria mais rigorosa quando chegou a hora do pós-treinamento. Nas suas palavras, “a qualidade dos dados, e não a quantidade, é o que realmente define o desempenho”.
Isso é particularmente verdadeiro quando são usados dados sintéticos, ampliando tanto o escopo de possíveis cenários de treinamento quanto o impacto de quaisquer falhas no conjunto de dados original. Do lado da visão, Turing estima que 75 a 80 por cento dos seus dados são sintéticos, extrapolados dos vídeos originais da GoPro. Mas isso torna ainda mais importante manter o conjunto de dados original com a maior qualidade possível.
“Se os dados de pré-treinamento em si não forem de boa qualidade, então tudo o que você fizer com os dados sintéticos também não será de boa qualidade”, diz Sivaraman.
Além das preocupações com a qualidade, existe uma poderosa lógica competitiva por trás de manter a coleta de dados internamente. Para a Fyxer, o árduo trabalho de coleta de dados é um dos melhores fossos que a empresa tem contra a concorrência. Na opinião de Hollingsworth, qualquer pessoa pode construir um modelo de código aberto em seu produto – mas nem todos conseguem encontrar anotadores especializados para treiná-lo em um produto viável.
“Acreditamos que a melhor maneira de fazer isso é por meio de dados”, disse ele ao TechCrunch, “por meio da construção de modelos personalizados, por meio de treinamento em dados de alta qualidade conduzido por humanos”.
Share this content:
Publicar comentário