A OpenAI lança GPT-5.5, Anthropic abre a memória aos Managed Agents, Kimi K2.6 Agent Swarm

O 23 de abril de 2026 marca um dia denso: a OpenAI lança o GPT-5.5 com 85% no ARC-AGI-2 e um preço de API de $5/M tokens na entrada, enquanto a Anthropic abre a memória persistente em beta para os seus Managed Agents e publica um post-mortem sobre o Claude Code. Em paralelo, o GitHub Copilot entrega sete atualizações em três dias, o Kimi K2.6 implementa um enxame (swarm) de 300 subagentes, e a SpaceX sela uma parceria de codificação com o Cursor.

GPT-5.5 : o modelo frontier da OpenAI

23 de abril — A OpenAI lança o GPT-5.5, o seu modelo mais poderoso até à data, concebido para o trabalho real e para agentes. Melhora significativamente a codificação agêntica, a utilização do computador (computer use), o trabalho do conhecimento e a investigação científica, ao mesmo tempo que mantém a latência do GPT-5.4.

Disponibilidade e preços

O GPT-5.5 está disponível imediatamente para os subscritores ChatGPT Plus, Pro, Business e Enterprise, bem como no Codex. O acesso à API chega “muito em breve”.

Oferta	Acesso API	Entrada	Saída
GPT-5.5 standard	Em breve	$5 / M tokens	$30 / M tokens
GPT-5.5 Pro	Em breve	$30 / M tokens	$180 / M tokens

A janela de contexto no Codex atinge 400K tokens. Está disponível um modo Fast — 1,5× mais rápido, 2,5× o custo.

Benchmarks

Avaliação	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	69.4%	68.5%
Expert-SWE (interno)	73.1%	68.5%	—	—
SWE-Bench Pro	58.6%	57.7%	64.3%	54.2%
GDPval	84.9%	83.0%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	78.0%	—
ARC-AGI-2	85.0%	73.3%	75.8%	77.1%
FrontierMath Tier 4	35.4%	27.1%	22.9%	16.7%
CyberGym	81.8%	79.0%	73.1%	—
BixBench (bioinformática)	80.5%	74.0%	—	—

O GPT-5.5 está na liderança na maioria dos benchmarks, com uma exceção notável: SWE-Bench Pro, onde o Claude Opus 4.7 mantém a vantagem (64.3% vs 58.6%).

Infraestrutura e segurança

O modelo foi co-desenhado com NVIDIA GB200/GB300 NVL72. O Codex usou o GPT-5.5 para otimizar a sua própria infraestrutura, ganhando +20% de velocidade de geração de tokens. Em cibersegurança, o GPT-5.5 é classificado como High no Preparedness Framework da OpenAI (não Critical); o programa Trusted Access Cyber foi alargado a ele.

Investigação científica

Para além do código, o GPT-5.5 ajudou a provar um novo teorema sobre os números de Ramsey (combinatória), verificado formalmente em Lean. Também analisou um conjunto de dados genómicos de 62 amostras e 28 000 genes em poucos minutos — uma tarefa que teria exigido meses a uma equipa de investigadores.

«GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use.»

🇵🇹 O GPT-5.5 é visivelmente mais inteligente e persistente do que o GPT-5.4, com melhor desempenho em programação e uma utilização de ferramentas mais fiável. — Michael Truell, cofundador e CEO da Cursor

🔗 Anúncio do GPT-5.5

A vaga dos agentes persistentes

Três anúncios importantes convergem neste 23 de abril em torno do agente persistente, capaz de agir de forma autónoma durante longos períodos e de reter o contexto de uma sessão para a outra.

OpenAI Workspace Agents no ChatGPT

22 de abril — A OpenAI apresenta os agentes de espaço de trabalho (Workspace Agents): agentes partilhados que uma equipa cria uma vez, usa em conjunto no ChatGPT ou Slack e melhora progressivamente. Alimentados pelo Codex na cloud, podem executar tarefas complexas mesmo quando o utilizador está desligado. Os Workspace Agents substituem gradualmente os GPT, que permanecem disponíveis durante a transição.

Tipo de agente	Funcionalidade
Verificador de software	Examina pedidos, compara políticas, cria tickets de IT
Router de feedback de produto	Monitoriza Slack/suporte/fóruns → tickets priorizados
Gerador de relatórios	Extrai dados de sexta-feira, cria gráficos, síntese
Agente de prospeção	Pesquisa leads, avalia, redige emails, atualiza CRM
Responsável por riscos de terceiros	Avalia fornecedores, produz relatório estruturado

Disponíveis em research preview para Business, Enterprise, Edu e Teachers; gratuitos até 6 de maio de 2026, depois faturação em créditos.

Segundo Ankur Bhatt (AI Engineering, Rippling), o que antes levava 5 a 6 horas por semana aos comerciais é agora executado automaticamente em segundo plano sobre cada oportunidade.

🔗 Workspace Agents

Anthropic — Memória para os Claude Managed Agents

23 de abril — A memória para os Claude Managed Agents está disponível em beta pública na Claude Platform. Os agentes podem agora aprender de uma sessão para a outra graças a uma camada de memória montada diretamente sobre um sistema de ficheiros: os agentes usam as mesmas capacidades bash e de execução de código que já utilizam para tarefas agênticas.

Funcionalidade	Detalhe
Stores partilháveis	Vários agentes, diferentes âmbitos de acesso (apenas leitura / leitura-escrita)
Acesso concorrente	Sem sobrescrita entre sessões paralelas
Registo de auditoria	Que sessão, que agente, que memória
Reversão	Em qualquer versão anterior
Exportabilidade	Memórias geríveis via API

Os resultados dos clientes ilustram o impacto concreto:

Cliente	Resultado
Rakuten	-97% de erros na primeira passagem, -27% de custo, -34% de latência
Wisedocs	+30% de velocidade de verificação documental
Netflix	Continuidade do contexto entre sessões sem atualização manual
Ando	Memória de plataforma sem infraestrutura dedicada

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇵🇹 A memória nos Claude Managed Agents permite-nos colocar a aprendizagem contínua em produção à escala. Os nossos agentes distilam lições de cada sessão, produzindo 97% menos erros na primeira passagem, com 27% menos custo e 34% menos latência. — Yusuke Kaji, General Manager AI for Business, Rakuten

🔗 Memória Managed Agents

Claude Code : post-mortem de qualidade e duas novas versões

Post-mortem e reposição dos limites

23 de abril — A equipa Claude Code publicou um post-mortem sobre três problemas de qualidade reportados ao longo do mês passado. Todos estão corrigidos na v2.1.116+. Os limites de utilização foram repostos para todos os subscritores.

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇵🇹 Ao longo do mês passado, alguns de vocês reportaram que a qualidade do Claude Code tinha diminuído. Investigámos e publicámos um post-mortem sobre os três problemas que encontrámos. Todos estão corrigidos na v2.1.116+ e repusemos os limites de utilização para todos os subscritores. — @ClaudeDevs

v2.1.117 e v2.1.118

Versão	Funcionalidades principais
v2.1.118	Modo visual Vim (`v`/`V`) com seleção e operadores; `/usage` unificado (funde `/cost` e `/stats`); temas personalizados em `/theme`; hooks a invocar ferramentas MCP via `type: "mcp_tool"`; `DISABLE_UPDATES` estrito; herança de managed settings Windows via WSL
v2.1.117	Esforço por defeito passou para `high` para Pro/Max em Opus 4.6 e Sonnet 4.6 (era `medium`); fork de subagentes ativável em builds externas; `glob`/`Grep` substituídos por `bfs`/`ugrep` incorporados para pesquisas mais rápidas; fix de sessões Opus 4.7 (contexto 1M calculado corretamente); fix de Bedrock+Opus 4.7 com thinking desativado

🔗 CHANGELOG do Claude Code

Novos conectores Claude para o dia a dia

23 de abril — A Anthropic alarga o seu repertório de conectores às aplicações de consumo. Desde julho de 2025, estavam disponíveis mais de 200 conectores para ferramentas profissionais; esta atualização acrescenta 15 serviços do quotidiano.

Aplicação	Categoria
AllTrails	Caminhada
Audible	Audiolivros
Booking.com	Viagens
Instacart	Compras online
Intuit Credit Karma	Finanças
Intuit TurboTax	Fiscalidade
Resy	Reservas de restaurante
Spotify	Música
StubHub	Bilhética
Taskrabbit	Serviços domésticos
Thumbtack	Profissionais locais
TripAdvisor	Viagens
Uber	Transporte
Uber Eats	Entrega de refeições
Viator	Atividades turísticas

O Claude sugere agora automaticamente os conectores relevantes consoante o contexto da conversa. Disponíveis em todos os planos (incluindo o gratuito), web, desktop e mobile (mobile em beta). Sem colocação paga nem respostas patrocinadas; os dados de uma app não são usados para treinar os modelos.

🔗 Conectores para o dia a dia

GitHub Copilot — Sete atualizações em três dias

O GitHub Copilot publicou sete entradas no seu changelog entre 22 e 23 de abril.

Chat para pull requests (3 novas capacidades)

23 de abril — O Copilot Chat integra agora três capacidades para pull requests, acessíveis via github.com/copilot ou o botão Copilot nos diffs (preview pública):

Compreensão de PR (pull request understanding): comentários, alterações, commits e revisões integrados como contexto
Revisão de PR: revisão estruturada a pedido
Resumo de PR: resumo conciso das alterações

🔗 Melhorias no Copilot Chat para PR

Sessões de agente controláveis a partir de issues e projetos

23 de abril — O cloud agent é agora controlável diretamente a partir das issues e dos painéis de projetos GitHub: indicador de sessão no cabeçalho da issue, painel lateral de progresso, sessões ativadas por defeito em todas as vistas de projetos.

🔗 Sessões de agente a partir de issues

Depuração estruturada de stack traces na web

23 de abril — O Copilot Chat no github.com guia agora a análise de stack traces em seis passos estruturados: o que falhou, porquê, a causa raiz, as provas vindas do código, o nível de confiança e as verificações seguintes.

🔗 Depuração de stack traces

BYOK VS Code disponível (GA)

22 de abril — Bring Your Own Key (traga a sua própria chave API) está em disponibilidade geral para utilizadores Copilot Business e Enterprise no VS Code. Anthropic, Gemini, OpenAI, OpenRouter, Azure são suportados, assim como modelos locais via Ollama e Foundry Local. A faturação é direta pelo fornecedor escolhido, fora das quotas do Copilot.

🔗 BYOK VS Code GA

C++ Language Server em preview pública para Copilot CLI

22 de abril — O Microsoft C++ Language Server (motor IntelliSense do Visual Studio/VS Code) está disponível em preview pública para o Copilot CLI. Fornece dados semânticos precisos (definições de símbolos, referências, hierarquias de chamadas, tipos) em substituição da pesquisa grep iterativa. Pré-requisitos: autenticação Copilot CLI + compile_commands.json.

🔗 C++ Language Server

Novas inscrições Business self-serve suspensas

22 de abril — O GitHub suspende as novas inscrições self-serve para Copilot Business nos planos GitHub Free e GitHub Team. Os clientes existentes não são afetados.

🔗 Pausa no Business self-serve

Campo `used_copilot_cloud_agent` nas métricas API

23 de abril — Na sequência do rebranding “coding agent” → “cloud agent”, a API de métricas acrescenta o campo used_copilot_cloud_agent nos relatórios de utilizadores (1 dia e 28 dias móveis). O campo antigo used_copilot_coding_agent mantém-se até 1 de agosto de 2026.

🔗 Métricas do cloud agent

Gemini CLI v0.39.0 e Deep Think para todos os Ultra

Gemini CLI v0.39.0

23 de abril — A Google publica o Gemini CLI v0.39.0, versão estável marcada como “Latest”. O destaque é o novo comando /memory inbox para rever e validar as skills extraídas automaticamente pelo CLI durante as sessões de trabalho.

Funcionalidade	Descrição
`/memory inbox`	Revisão das skills extraídas automaticamente
`invoke_subagent` unificado	Ferramenta de subagente refatorizada numa interface única
Formatação compacta	Melhor legibilidade em modo compacto
Plan Mode — confirmações	Validação exigida antes da ativação de skills
Arranque simplificado	Processo pai leve para arranque mais rápido
Migração JSONL streaming	Registo de sessões de chat em JSONL

Atalhos de teclado adicionados: Ctrl+Backspace para eliminação palavra por palavra (Windows Terminal), Ctrl+Shift+G.

🔗 Gemini CLI v0.39.0

Deep Think aberto a todos os subscritores Ultra

22 de abril — A Google abre o modo Deep Think (raciocínio aprofundado, extended thinking) a todos os subscritores Gemini Ultra. Este modo estava anteriormente com acesso limitado; agora está disponível diretamente a partir do menu de ferramentas da app Gemini (web e mobile).

🔗 Tweet @GeminiApp

Kimi K2.6 : enxame de 300 subagentes e benchmarks open-weights

Agent Swarm — 300 subagentes paralelos

23 de abril — A Moonshot AI lança o Kimi K2.6 Agent Swarm: um sistema capaz de implementar 300 subagentes em paralelo em 4 000 passos por execução, contra 100 agentes e 1 500 passos para o K2.5.

Capacidade	K2.5	K2.6
Subagentes paralelos	100	300
Passos por execução	1 500	4 000
Tipos de outputs	Texto de chat	100+ ficheiros reais, reviews de 100 000 palavras, datasets de 20 000 linhas

Os subagentes combinam competências heterogéneas: pesquisa web, análise de dados, codificação, redação de formato longo e geração visual. Disponível em kimi.com/agent-swarm.

🔗 Tweet @Kimi_Moonshot

Benchmarks: número 1 open-weights

23 de abril — O Kimi K2.6 alcança o primeiro lugar entre os modelos open-weights em dois benchmarks: - Design Arena : mesma faixa de desempenho que Claude Opus 4.7

MathArena open (modo Think) : à frente de GLM 5.1

🔗 Design Arena

SpaceXAI × Cursor e Grok Imagine

Parceria SpaceXAI × Cursor

22 de abril — SpaceXAI (entidade resultante da aproximação entre xAI e SpaceX) e Cursor anunciam uma parceria para criar “a IA de codificação e de trabalho do conhecimento mais poderosa do mundo”. A SpaceX traz o supercomputador Colossus (equivalente a um milhão de H100); a Cursor concede-lhe o direito de adquirir a empresa mais tarde, em 2026, por $60 bilhões, ou de pagar $10 bilhões apenas pela colaboração.

🔗 Tweet @SpaceX

Grok Imagine — Templates personalizados partilháveis

22 de abril — Os assinantes SuperGrok e Premium+ podem agora criar templates personalizados no Grok Imagine e partilhá-los publicamente.

🔗 Tweet @imagine

NVIDIA × Google Cloud Next

22 de abril — No Google Cloud Next (Las Vegas), a NVIDIA e o Google Cloud anunciam vários avanços importantes em torno da infraestrutura de IA agêntica.

Anúncio	Detalhe
Instâncias A5X (Vera Rubin NVL72)	Até 960 000 GPUs Rubin em cluster multi-site, 10× mais barato por token, 10× mais débito por megawatt
Gemini no Google Distributed Cloud	Preview com GPUs Blackwell e Blackwell Ultra — soberania dos dados
Confidential VMs Blackwell	Primeira oferta de computação confidencial (confidential computing) Blackwell na cloud pública
Nemotron 3 Super	Disponível na Gemini Enterprise Agent Platform
NeMo RL API	Aprendizagem por reforço (Reinforcement Learning) gerida em grande escala

🔗 Blog NVIDIA × Google Cloud

Kling AI Video 3.0 — Modo 4K nativo

23 de abril — A Kling AI lança o modo 4K nativo na sua série Video 3.0. A geração 4K é feita num único clique, sem etapa adicional de upscaling. A coerência visual (personagens, textos, estilos, iluminações) é assegurada em resolução nativa para produção de alto nível. Também disponível via fal.ai para empresas.

A Kling AI organiza simultaneamente um 4K Short Film Creative Contest, concurso mundial que convida os criadores a submeter curtas-metragens realizados com o novo modo.

🔗 Tweet @Kling_ai

ChatGPT for Clinicians e OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

22 de abril — A OpenAI lança ChatGPT for Clinicians, uma versão gratuita para profissionais de saúde verificados nos Estados Unidos (médicos, enfermeiros praticantes, assistentes médicos, farmacêuticos). O serviço inclui acesso aos modelos frontier para questões clínicas complexas, skills para workflows repetitivos (cartas de referência, autorizações prévias), pesquisa clínica citada em tempo real e geração automática de créditos de formação contínua (CME). O processamento HIPAA está disponível como opção mediante acordo.

A OpenAI publica também HealthBench Professional, um benchmark aberto que avalia a IA em tarefas clínicas reais (700 000+ respostas avaliadas por médicos). O GPT-5.4 no ChatGPT for Clinicians supera os médicos humanos neste benchmark em condições sem limite de tempo e com acesso web.

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

22 de abril — A OpenAI publica Privacy Filter, um modelo open-weight (Apache 2.0) para detetar e mascarar informações pessoalmente identificáveis (Personally Identifiable Information, PII) no texto. O modelo funciona localmente (nenhum dado enviado para um servidor), suporta 128K tokens de contexto e atinge uma pontuação F1 de 97.43% no benchmark PII-Masking-300k.

Característica	Valor
Arquitetura	Classificador de tokens bidirecional (decodificação Viterbi constrangida)
Tamanho	1.5B parâmetros totais, 50M ativos
Contexto	128 000 tokens
Licença	Apache 2.0 (Hugging Face + GitHub)
F1	97.43% no PII-Masking-300k corrigido

Categorias de PII cobertas: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret (palavras-passe e chaves API).

🔗 OpenAI Privacy Filter

Perplexity e Cohere

Perplexity integra Kimi K2.6

23 de abril — Kimi K2.6 da Moonshot AI está agora disponível para todos os assinantes Pro e Max da Perplexity.

🔗 Tweet @perplexity_ai

Cohere — W4A8 pronto para produção no vLLM

22 de abril — A Cohere anuncia a integração da sua inferência W4A8 (quantização de 4 bits para os pesos, 8 bits para as ativações) no vLLM. Resultados em GPU Hopper versus W4A16: +58% no tempo até ao primeiro token (Time To First Token) e +45% no tempo por token de saída (Time Per Output Token). A integração visa prioritariamente os modelos MoE Command A de grande escala em produção.

🔗 Blog Cohere W4A8

Breves

Suno número 1 na App Store de música

21 de abril — A Suno, plataforma de geração musical com IA, alcança o primeiro lugar da App Store na categoria música. O CEO Mikey Shulman anuncia: « The future of music is one where everyone enjoys creating. »

🔗 Tweet @suno

Anthropic Economic Index Survey

22 de abril — A Anthropic lança a Anthropic Economic Index Survey, um inquérito mensal conduzido via Anthropic Interviewer junto de uma amostra aleatória de utilizadores Claude. O objetivo é recolher dados qualitativos sobre o impacto económico da IA: tarefas delegadas, ganhos de produtividade, evolução de funções. Os resultados alimentarão os futuros relatórios Anthropic Economic Index.

🔗 Anúncio do inquérito

Anthropic — Agentes MCP em produção: os números

22 de abril — Um artigo técnico da Anthropic documenta os benefícios de MCP para agentes de produção: os SDK MCP ultrapassam 300 milhões de downloads por mês, a pesquisa de ferramentas (tool search) reduz os tokens de definição de ferramentas em 85%, e as chamadas programáticas de ferramentas (programmatic tool calling) reduzem a utilização de tokens em 37% em workflows complexos de várias etapas.

🔗 Blog MCP production agents

OpenAI — WebSockets na API Responses: ganho de 40% de latência

22 de abril — Artigo retrospetivo da OpenAI a explicar como o modo WebSocket na API Responses reduz a latência dos loops de agentes em 40%. A ligação persistente mantém um cache em memória do estado das respostas anteriores, evitando reprocessar todo o histórico a cada chamada. Já em produção: Codex, Vercel AI SDK, Cline (+39%), Cursor (+30%).

🔗 Artigo WebSockets

Perplexity Research — Treino de modelos de pesquisa aumentada

22 de abril — A Perplexity publica uma investigação sobre o seu pipeline SFT + RL (Supervised Fine-Tuning + Reinforcement Learning) para melhorar a qualidade das respostas de pesquisa. Resultado-chave: modelos Qwen pós-treinados alcançam a factualidade dos modelos GPT a menor custo.

🔗 Research Perplexity

O que isto significa

23 de abril de 2026 desenha duas tendências convergentes. Por um lado, o GPT-5.5 confirma que a OpenAI voltou à liderança nos benchmarks agênticos (Terminal-Bench, ARC-AGI-2, OSWorld) após vários meses em que o Claude Opus 4.7 dominou. A diferença continua apertada no SWE-Bench Pro, onde a Anthropic mantém a vantagem — sinal de que os dois laboratórios convergem nos mesmos casos de uso prioritários.

Por outro lado, o dia marca a entrada na era dos agentes persistentes com memória: OpenAI Workspace Agents, Anthropic Managed Agents Memory e Kimi K2.6 Agent Swarm chegam simultaneamente com abordagens diferentes (integração Slack, filesystem-based, enxame de subagentes), mas com o mesmo objetivo — que o agente se lembre, aprenda e atue sem supervisão constante. Os números Rakuten (-97% de erros, -27% de custo) dão uma primeira medida industrial do impacto.

O GitHub Copilot continua a sua estratégia de integração profunda no GitHub.com (PR chat, agent sessions a partir de issues, stack traces estruturadas) ao mesmo tempo que se abre ao exterior via BYOK. O BYOK VS Code GA assinala que o Copilot se posiciona tanto como interface quanto como modelo.

Fontes

Este documento foi traduzido da versão fr para a língua pt usando o modelo gpt-5.4-mini. Para mais informações sobre o processo de tradução, consulte https://gitlab.com/jls42/ai-powered-markdown-translator