A semana termina com várias anúncios significativos: o GPT-5.4 da OpenAI consolida o uso do computador nativo com 75% no OSWorld e uma janela de contexto de um milhão de tokens, o NotebookLM introduz os Cinematic Video Overviews onde o Gemini atua como realizador, e o Codex amplia seu suporte ao Windows com um sandbox (sandbox) nativo. No front de ferramentas para desenvolvedores, a Anthropic melhora o skill-creator e lança os HTTP hooks no Claude Code, e o GitHub ativa o Copilot Memory por padrão para usuários Pro.
GPT-5.4 — Uso do computador nativo, 1M tokens, ferramenta de pesquisa
5 de março de 2026 — A OpenAI lança o GPT-5.4, seu modelo frontier para trabalho profissional. Disponível no ChatGPT (sob o nome GPT-5.4 Thinking), na API (identificador gpt-5.4) e no Codex, este modelo consolida em uma única arquitetura as capacidades de raciocínio, codificação e fluxos de trabalho agenticos (agentic workflows) introduzidas em modelos anteriores.
A novidade técnica mais significativa é a integração nativa do uso do computador: o GPT-5.4 pode operar interfaces gráficas por meio de capturas de tela e teclado/raton sem plugins de terceiros. No OSWorld-Verified — o benchmark de referência para interação com interfaces de software reais — o GPT-5.4 alcança 75,0 %, contra 47,3 % do GPT-5.2. A janela de contexto aumenta para 1 milhão de tokens no Codex e na API.
Outra novidade notável é o tool search: em vez de receber a lista completa de ferramentas disponíveis a cada chamada, o modelo recebe uma lista leve e pesquisa as ferramentas sob demanda. A OpenAI mede uma redução de 47 % no consumo de tokens em fluxos de trabalho com muitas ferramentas (testado no Scale MCP Atlas). O modo /fast no Codex ganha 1,5× em velocidade com igual inteligência.
Benchmarks :
| Avaliação | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| GDPval (trabalho profissional) | 83,0 % | 70,9 % | 70,9 % |
| SWE-Bench Pro | 57,7 % | 56,8 % | 55,6 % |
| OSWorld-Verified (uso do computador) | 75,0 % | 74,0 % | 47,3 % |
| BrowseComp (pesquisa web) | 82,7 % | 77,3 % | 65,8 % |
| Toolathlon (uso de ferramentas) | 54,6 % | 51,9 % | 46,3 % |
| ARC-AGI-2 (raciocínio abstrato) | 73,3 % | — | 52,9 % |
Preços da API :
| Modelo | Entrada | Saída |
|---|---|---|
| gpt-5.2 | 1,75 $ / M tokens | 14 $ / M tokens |
| gpt-5.4 | 2,50 $ / M tokens | 15 $ / M tokens |
| gpt-5.2-pro | 21 $ / M tokens | 168 $ / M tokens |
| gpt-5.4-pro | 30 $ / M tokens | 180 $ / M tokens |
O GPT-5.4 Thinking está disponível desde hoje para assinantes ChatGPT Plus, Team e Pro. O GPT-5.2 Thinking permanecerá disponível em “Legacy Models” até 5 de junho de 2026. No aspecto de segurança, a OpenAI classifica o GPT-5.4 como “High cyber capability” em seu quadro de preparação (Preparedness Framework). A empresa publica simultaneamente o CoT-Control, uma suíte de avaliação open source que mede a controlabilidade da cadeia de pensamento de 13 modelos frontier — as pontuações, baixas (0,1 % a 15,4 %), indicam que a supervisão das cadeias de pensamento continua sendo uma ferramenta de segurança confiável.
🔗 Apresentando GPT-5.4 | OpenAI
NotebookLM — Cinematic Video Overviews
4 de março de 2026 — O NotebookLM introduz os Cinematic Video Overviews em seu Studio. Esses vídeos vão além dos Audio Overviews (formato podcast) lançados em 2024 e dos templates (templates) de vídeo padrão.
O princípio: o Gemini é posicionado como realizador. O modelo analisa as fontes do usuário, decide o formato mais adequado (tutorial, documentário, etc.), escolhe um estilo visual, gera as imagens e depois as auto-critica antes de produzir a versão final. O resultado é um vídeo imersivo e personalizado, único para cada conjunto de fontes.
A funcionalidade está disponível para assinantes Google AI Ultra, em inglês, desde 4 de março de 2026. O lançamento completo para usuários Ultra foi confirmado no mesmo dia. Um acesso para assinantes Pro está previsto no roadmap, sem calendário preciso. O tweet de anúncio atingiu 3 milhões de visualizações.
OpenAI — Codex no Windows, pesquisa CoT-Control
Codex disponível no Windows
4 de março de 2026 — O aplicativo Codex está agora disponível no Windows, com um sandbox de agente nativo e suporte a ambientes de desenvolvimento Windows via PowerShell. Duas novas skills estão disponíveis: $aspnet-core para aplicações Blazor, ASP.NET MVC e Razor Pages, e $winui-app para aplicações nativas do Windows com WinUI 3.
Pesquisa — controlabilidade da cadeia de pensamento
5 de março de 2026 — A OpenAI publica “Les modèles de raisonnement peinent à contrôler leurs chaînes de pensée, et c’est une bonne chose” (Reasoning models struggle to control their chains of thought, and that’s good). A suíte de avaliação open source CoT-Control mede a controlabilidade da cadeia de pensamento de 13 modelos frontier. As pontuações variam entre 0,1 % e 15,4 %, o que indica que os modelos atuais têm dificuldade em modificar deliberadamente seu raciocínio para contornar os sistemas de monitoramento — resultado apresentado como positivo para a segurança. A OpenAI planeja incluir essas métricas nas fichas de sistema (system cards) de futuros modelos.
🔗 Pesquisa CoT-Control | OpenAI
Anthropic — Skill-creator e HTTP hooks
Skill-creator melhorado
3 de março de 2026 — A Anthropic publica uma atualização importante de sua ferramenta skill-creator para Claude Code e Claude.ai. O anúncio introduz dois tipos formais de competências (Agent Skills):
| Tipo | Descrição | Durabilidade |
|---|---|---|
| Capability uplift | Ajuda o Claude a fazer algo que ele ainda não sabe fazer bem | Pode tornar-se obsoleto se o modelo melhorar |
| Encoded preference | Codifica processos e preferências de uma equipe | Durável, depende da fidelidade ao workflow real |
As novas funcionalidades: evals (testes automatizados) para verificar que uma skill produz o resultado esperado, modo benchmark para medir a taxa de sucesso, tempo e consumo de tokens, e suporte multi-agent para executar avaliações em paralelo sem contaminação cruzada entre os testes. Um modo comparador A/B permite confrontar duas versões de uma skill. O skill-creator está disponível agora no Claude.ai e Cowork; para o Claude Code, instala-se como plugin.
🔗 Melhorando o skill-creator: Teste, meça e refine Agent Skills
HTTP hooks no Claude Code
4 de março de 2026 — O Claude Code lança os HTTP hooks, uma alternativa aos hooks de comando (command hooks) existentes. Em vez de executar um script shell local, o Claude Code envia um evento para uma URL escolhida pelo usuário e aguarda uma resposta. Casos de uso: construir uma aplicação web para visualizar o progresso, gerenciar permissões ou sincronizar estado entre várias instâncias do Claude Code através de um banco de dados. Os HTTP hooks funcionam em plugins, agentes personalizados e nas configurações empresariais gerenciadas.
Gemini CLI v0.32.0 — Generalist Agent por padrão
3 de março de 2026 — A versão 0.32.0 do Gemini CLI ativa por padrão o Generalist Agent para melhorar a delegação e o roteamento de tarefas. A atualização traz também model steering (pilotagem de modelo) diretamente no workspace, melhorias no Plan Mode (abrir e editar planos em um editor externo, suporte a múltipla seleção para tarefas complexas), autocompletação interativa no shell, e carregamento paralelo das extensões para melhor desempenho na inicialização.
GitHub Copilot — Memory por padrão, mobile e métricas
Copilot Memory ativado por padrão
4 de março de 2026 — O GitHub ativa o Copilot Memory por padrão para todos os usuários dos planos Pro e Pro+. A funcionalidade, anteriormente em prévia por assinatura opcional, permite ao Copilot reter informações persistentes a nível de repositório: convenções de codificação, padrões arquiteturais, dependências críticas.
As memórias são estritamente limitadas a um único repositório e validadas contra o código atual antes da aplicação, o que evita o uso de contexto obsoleto. Elas expiram automaticamente após 28 dias. A funcionalidade está ativa no agente de codificação, na revisão de código e no CLI Copilot — os conhecimentos descobertos por um agente ficam imediatamente disponíveis para os outros. Os usuários podem desativar o Copilot Memory nas suas configurações (Settings > Features > Copilot Memory); os administradores Enterprise mantêm controle total.
🔗 Copilot Memory now on by default for Pro and Pro+ users
Notificações em tempo real para agentes no GitHub Mobile
4 de março de 2026 — O GitHub Mobile recebe notificações em tempo real para sessões de agentes Copilot. Os desenvolvedores podem acompanhar o progresso de seus agentes, quer a sessão tenha sido iniciada a partir de um computador ou do telefone.
🔗 GitHub Mobile | Anúncio no X
Grok Code Fast 1 no Copilot Free Auto
4 de março de 2026 — O GitHub adiciona o Grok Code Fast 1 da xAI à seleção automática de modelos (Auto) do Copilot Free. Este modelo pode agora ser selecionado pelo Copilot durante sessões de chat no Visual Studio Code, Visual Studio, IDEs JetBrains, Xcode e Eclipse.
🔗 Grok Code Fast 1 in Copilot Free auto model selection
Métricas do Copilot CLI ao nível do usuário
5 de março de 2026 — O GitHub estende as métricas de uso do Copilot para a atividade do CLI ao nível do usuário. Esta atualização segue a release da semana anterior ao nível empresarial. Os administradores podem agora identificar os usuários ativos no CLI, consultar o número de requisições e sessões, e acompanhar o consumo de tokens por usuário.
🔗 Copilot usage metrics — user-level CLI activity
Perplexity — GPT-5.4 e Voice Mode no Computer
GPT-5.4 Thinking disponível na Perplexity
5 de março de 2026 — O GPT-5.4 e o GPT-5.4 Thinking estão agora acessíveis na Perplexity para assinantes Pro e Max. A versão Thinking ativa o raciocínio estendido do GPT-5.4 para respostas mais aprofundadas em requisições complexas.
Voice Mode no Perplexity Computer
4 de março de 2026 — A Perplexity introduz um modo vocal (Voice Mode) no Perplexity Computer. A interface, que já permitia pesquisar, codificar e deployar projetos, aceita agora instruções por voz diretamente.
Cohere × Aston Martin F1 — parceria plurianual
4 de março de 2026 — A Cohere anuncia uma parceria plurianual com a equipe Aston Martin Aramco F1. Cada membro da equipe terá acesso aos modelos empresariais e à plataforma de IA agentica da Cohere (North) para trabalhar em um dos ambientes de dados mais exigentes do esporte mundial. O logo da Cohere aparece no carro a partir do Grande Prêmio da Austrália 2026.
Black Forest Labs — Self-Flow, pesquisa multimodal
4 de março de 2026 — A Black Forest Labs (criadores do FLUX) publica o Self-Flow em research preview. Esta abordagem treina modelos generativos multimodais (imagem, vídeo, áudio, texto) sem depender de modelos externos para representação, através de um método de flow matching auto-supervisionado (self-supervised flow matching).
Resultados apresentados: até 2,8× mais rápido na convergência cross-modal, melhor coerência temporal em vídeo, renderização tipográfica mais nítida. As demonstrações incluem um modelo de vídeo de 4B parâmetros treinado em 6M de vídeos, um modelo de imagem de 4B parâmetros treinado em 200M de imagens, e um modelo áudio-vídeo conjunto. A BFL posiciona o Self-Flow como um caminho para os world models: “Self-Flow opens a path toward world models: combining visual scalability with semantic abstraction for planning and understanding.”
Em resumo
Runway lançou um hub de modelos unificados em 3 de março, centralizando o acesso a modelos terceiros de imagem, vídeo, áudio e linguagem diretamente na plataforma. 🔗 Anúncio
Claude alcançou a 1ª posição na App Store iOS em 14 países simultaneamente em 5 de março — Austrália, Áustria, Bélgica, Canadá, França, Alemanha, Irlanda, Itália, Nova Zelândia, Noruega, Singapura, Suíça, Reino Unido, Estados Unidos. 🔗 Tweet
Manus publicou sua carta anual em 5 de março por ocasião de seu primeiro aniversário, destacando depoimentos de usuários (uma mãe, um linguista de 86 anos, uma florista). 🔗 Carta
Grok ultrapassou a marca de um milhão de avaliações na App Store americana. 🔗 Tweet @grok
O que isso significa
O GPT-5.4 confirma que o uso do computador passa do status experimental para funcionalidade integrada em um modelo polivalente. A pontuação de 75 % no OSWorld-Verified e a redução de 47 % dos tokens via tool search são medidas concretas de uma mudança de paradigma: agentes de IA podem agora operar interfaces de software complexas sem infraestrutura especializada.
No âmbito das ferramentas para desenvolvedores, a semana mostra uma convergência: a Anthropic melhora a forma de testar e supervisionar habilidades de agentes, o GitHub ativa a memória persistente para seus agentes de codificação, e a Perplexity adiciona o voice mode ao seu agente Computer. Os ambientes de execução agenticos (agentic runtimes) enriquecem-se com camadas de memória, observabilidade (HTTP hooks, notificações móveis) e interação natural (voz).
Os Cinematic Video Overviews do NotebookLM ilustram um eixo diferente: a geração de conteúdo pedagógico de formato longo a partir de fontes pessoais. O Gemini como realizador — analisar, criticar, recompor — é um uso da IA como meta-ferramenta de produção criativa, mais do que como simples assistente de geração.
Fontes - Apresentando o GPT-5.4 | OpenAI
- @OpenAI no X
- @OpenAIDevs no X — Codex para Windows
- Codex para Windows | OpenAI Developers
- Modelos de raciocínio CoT-Control | OpenAI
- Anúncio do NotebookLM no X
- Melhorando o skill-creator | Anthropic
- HTTP hooks Claude Code — @dickson_tsai
- Claude #1 na App Store — @RyD0ne
- Changelog do Gemini CLI
- Copilot Memory agora ativado por padrão | GitHub
- Notificações de agente em tempo real no GitHub Mobile
- Grok Code Fast 1 no Copilot Free auto | GitHub
- Métricas do Copilot CLI a nível de utilizador | GitHub
- GPT-5.4 no Perplexity
- Modo de Voz do Perplexity Computer
- Cohere × Aston Martin F1
- BFL Self-Flow
- Runway Hub multi-modelos
- Carta de aniversário da Manus
- Grok 1M avaliações na App Store
Este documento foi traduzido da versão fr para o idioma pt usando o modelo gpt-5-mini. Para mais informações sobre o processo de tradução, consulte https://gitlab.com/jls42/ai-powered-markdown-translator