OpenAI lança novo aplicativo macOS para codificação de agentes

A screenshot of the Codex app

OpenAI lança novo aplicativo macOS para codificação de agentes

A IA já está a ter um impacto sísmico na forma como o software é escrito, com grande parte do trabalho pesado de programação agora realizado por enxames de agentes e subagentes. Mas à medida que os desenvolvedores experimentam novas interfaces e formatos para a colaboração entre humanos e IA, fica difícil até mesmo para os laboratórios de IA mais avançados acompanhar.

A tendência atual é para o desenvolvimento de software de agência – sistemas onde os agentes de IA podem trabalhar de forma independente em tarefas de codificação – sintetizados pelos aplicativos Claude Code e Cowork. Enquanto isso, a OpenAI vem construindo gradualmente sua ferramenta Codex, lançada como uma ferramenta de linha de comando em abril passado e expandido para uma interface web um mês depois.

Agora a OpenAI está dando um grande passo para se atualizar. Na segunda-feira, a empresa lançou um novo aplicativo macOS para o Codex, integrando muitas das práticas de agência que se tornaram populares no ano passado. O novo aplicativo foi projetado para funcionar com vários agentes em paralelo, integrando habilidades do agente e outros fluxos de trabalho de última geração. O lançamento também ocorre menos de dois meses depois o lançamento do GPT-5.2-Codexo modelo de codificação mais poderoso da OpenAI, que a empresa espera ser suficiente para atrair os usuários do Claude Code.

“Se você realmente deseja fazer um trabalho sofisticado em algo complexo, o 5.2 é, de longe, o modelo mais forte”, disse o CEO Sam Altman a repórteres em uma teleconferência. “No entanto, tem sido mais difícil de usar, então achamos que pegar esse nível de capacidade do modelo e colocá-lo em uma interface mais flexível será bastante importante.”

Embora a confiança de Altman no GPT-5.2 seja compreensível, os benchmarks de codificação contam uma história mais complicada. GPT-5.2 se mantém o primeiro lugar no TerminalBench (um teste que mede quão bem a IA lida com tarefas de programação de linha de comando), pelo menos no momento desta publicação. Mas os agentes da Gemini 3 e Claude Opus registaram pontuações aproximadamente equivalentes – mais baixas, mas dentro da margem de erro do benchmark. Resultados de Banco SWEoutro benchmark de codificação que testa a capacidade da IA ​​de corrigir bugs de software do mundo real, são semelhantes, não mostrando nenhuma vantagem clara para o GPT-5.2. No entanto, os casos de uso de agentes têm sido difíceis de avaliar de forma eficaz e os modelos de última geração podem variar significativamente na experiência do usuário.

O aplicativo Codex também vem com uma série de novos recursos que, segundo a OpenAI, ajudarão a alcançar a paridade ou, em alguns casos, a superar os vários aplicativos Claude. O aplicativo Codex permitirá automações que podem ser configuradas para serem executadas em segundo plano em uma programação automática, com os resultados colocados em uma fila para serem revisados ​​quando o usuário retornar. Os usuários também podem selecionar diferentes personalidades para o agente – do pragmático ao empático – dependendo do seu estilo de trabalho.

Mas para a empresa, o maior argumento de venda é a velocidade de desenvolvimento possibilitada pela IA. “Você pode usar isso a partir de uma folha de papel em branco, nova, para criar um software realmente sofisticado em poucas horas”, disse Altman. “Tão rápido quanto consigo digitar novas ideias, esse é o limite do que pode ser construído.”

Evento Techcrunch

Boston, MA
|
23 de junho de 2026

Share this content:

Publicar comentário