A lacuna de reforço – ou por que algumas habilidades de IA melhoram mais rapidamente do que outras
As ferramentas de codificação de IA estão melhorando rapidamente. Se você não trabalhar no código, pode ser difícil notar quanto as coisas estão mudando, mas o GPT-5 e o Gemini 2.5 fizeram um novo conjunto de truques de desenvolvedor possíveis para automatizar e na semana passada o Sonnet 4.5 o fez novamente.
Ao mesmo tempo, outras habilidades estão progredindo mais lentamente. Se você estiver usando a IA para escrever e -mails, provavelmente está obtendo o mesmo valor que você fez há um ano. Mesmo quando o modelo melhora, o produto nem sempre se beneficia – principalmente quando o produto é um chatbot que está fazendo uma dúzia de trabalhos diferentes ao mesmo tempo. A IA ainda está progredindo, mas não é tão uniformemente distribuída quanto costumava ser.
A diferença em andamento é mais simples do que parece. Os aplicativos de codificação estão se beneficiando de bilhões de testes facilmente mensuráveis, que podem treiná -los para produzir código viável. Este é o aprendizado de reforço (RL), sem dúvida o maior fator de progresso da IA nos últimos seis meses e ficando mais complexo o tempo todo. Você pode fazer o aprendizado de reforço com as séries humanas, mas funciona melhor se houver uma métrica clara de falha de passagem, para que você possa repetir bilhões de vezes sem precisar parar para obter informações humanas.
À medida que a indústria depende cada vez mais do aprendizado de reforço para melhorar os produtos, estamos vendo uma diferença real entre os recursos que podem ser classificados automaticamente e os que não podem. Habilidades amigáveis ao RL, como fixação de insetos e matemática competitiva, estão melhorando rapidamente, enquanto habilidades como escrever fazem apenas um progresso incremental.
Em suma, há uma lacuna de reforço – e está se tornando um dos fatores mais importantes para o que os sistemas de IA podem e não podem fazer.
De certa forma, o desenvolvimento de software é o assunto perfeito para o aprendizado de reforço. Mesmo antes da IA, havia toda uma sub-disciplina dedicada a testar como o software se sustentaria sob pressão-principalmente porque os desenvolvedores precisavam garantir que seu código não quebrasse antes de implantarem. Portanto, mesmo o código mais elegante ainda precisa passar por testes de unidade, teste de integração, teste de segurança e assim por diante. Os desenvolvedores humanos usam esses testes rotineiramente para validar seu código e, como o diretor sênior de ferramentas de desenvolvimento do Google me disse recentemente, eles são igualmente úteis para validar o código gerado pela IA. Ainda mais do que isso, eles são úteis para o aprendizado de reforço, pois já são sistematizados e repetíveis em uma escala enorme.
Não há maneira fácil de validar um email bem escrito ou uma boa resposta de chatbot; Essas habilidades são inerentemente subjetivas e mais difíceis de medir em escala. Mas nem todas as tarefas se enquadram perfeitamente em categorias “fáceis de testar” ou “difíceis de testar”. Não temos um kit de teste pronto para uso para relatórios financeiros trimestrais ou ciência atuarial, mas uma startup de contabilidade bem capitalizada provavelmente poderia construir uma do zero. Alguns kits de teste funcionarão melhor do que outros, é claro, e algumas empresas serão mais inteligentes sobre como abordar o problema. Mas a testabilidade do processo subjacente será o fator decisivo para se o processo subjacente pode ser transformado em um produto funcional, em vez de apenas uma demonstração emocionante.
Evento do TechCrunch
São Francisco
|
27-29 de outubro de 2025
Alguns processos acabam sendo mais testáveis do que você imagina. Se você me perguntasse na semana passada, eu teria colocado o vídeo gerado pela IA na categoria “Difícil de teste”, mas o imenso progresso feito pelo novo modelo Sora 2 da Openai mostra que pode não ser tão difícil quanto parece. Em Sora 2, os objetos não aparecem mais e desaparecem do nada. Os rostos mantêm sua forma, parecendo uma pessoa específica e não apenas uma coleção de recursos. Sora 2 imagens respeita as leis da física em ambos óbvio e sutil caminhos. Suspeito que, se você espiar por trás da cortina, encontraria um sistema de aprendizado de reforço robusto para cada uma dessas qualidades. Juntos, eles fazem a diferença entre o fotorrealismo e uma alucinação divertida.
Para ficar claro, isso não é uma regra rígida e rápida da inteligência artificial. É resultado do aprendizado central de reforço de papel está desempenhando no desenvolvimento da IA, o que pode mudar facilmente à medida que os modelos se desenvolvem. Mas, desde que a RL seja a principal ferramenta para trazer o mercado de produtos de IA, a lacuna de reforço só aumentará – com sérias implicações para as startups e a economia em geral. Se um processo acabar no lado direito da lacuna de reforço, as startups provavelmente conseguirão automatizá -la – e qualquer pessoa que faça esse trabalho agora poderá acabar procurando uma nova carreira. A questão de quais serviços de saúde são transíveis RL, por exemplo, tem implicações enormes para a forma da economia nos próximos 20 anos. E se surpresas como Sora 2 são alguma indicação, talvez não precisemos esperar muito por uma resposta.
Share this content:
Publicar comentário