Pesquisar

OpenAI lança GPT-5.5, Anthropic abre a memória aos Managed Agents, Kimi K2.6 Agent Swarm

OpenAI lança GPT-5.5, Anthropic abre a memória aos Managed Agents, Kimi K2.6 Agent Swarm

O 23 de abril de 2026 marca um dia denso: a OpenAI lança o GPT-5.5 com 85% no ARC-AGI-2 e um preço de API de $5/M tokens na entrada, enquanto a Anthropic abre a memória persistente em beta para os seus Managed Agents e publica um post-mortem sobre o Claude Code. Em paralelo, o GitHub Copilot entrega sete atualizações em três dias, o Kimi K2.6 implanta um enxame (swarm) de 300 subagentes, e a SpaceX sela uma parceria de codificação com o Cursor.


GPT-5.5: o modelo frontier da OpenAI

23 de abril — A OpenAI lança o GPT-5.5, o seu modelo mais poderoso até à data, concebido para o trabalho real e para agentes. Ele melhora significativamente a codificação agentiva, o uso do computador (computer use), o trabalho do conhecimento e a pesquisa científica, ao mesmo tempo que mantém a latência do GPT-5.4.

Disponibilidade e preços

O GPT-5.5 está disponível imediatamente para os assinantes ChatGPT Plus, Pro, Business e Enterprise, bem como no Codex. O acesso à API chega “muito em breve”.

OfertaAcesso APIEntradaSaída
GPT-5.5 standardEm breve$5 / M tokens$30 / M tokens
GPT-5.5 ProEm breve$30 / M tokens$180 / M tokens

A janela de contexto no Codex atinge 400K tokens. Um modo Fast — 1,5× mais rápido, 2,5× o custo — está disponível.

Benchmarks

AvaliaçãoGPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%75.1%69.4%68.5%
Expert-SWE (interno)73.1%68.5%
SWE-Bench Pro58.6%57.7%64.3%54.2%
GDPval84.9%83.0%80.3%67.3%
OSWorld-Verified78.7%75.0%78.0%
ARC-AGI-285.0%73.3%75.8%77.1%
FrontierMath Tier 435.4%27.1%22.9%16.7%
CyberGym81.8%79.0%73.1%
BixBench (bioinformática)80.5%74.0%

O GPT-5.5 lidera na maioria dos benchmarks, com uma exceção notável: o SWE-Bench Pro, onde o Claude Opus 4.7 mantém a vantagem (64.3% vs 58.6%).

Infraestrutura e segurança

O modelo foi co-concebido com NVIDIA GB200/GB300 NVL72. O Codex usou o GPT-5.5 para otimizar a sua própria infraestrutura, ganhando +20% de velocidade de geração de tokens. Do lado da cibersegurança, o GPT-5.5 é classificado como High no Preparedness Framework da OpenAI (não Critical); o programa Trusted Access Cyber foi alargado a ele.

Pesquisa científica

Para além do código, o GPT-5.5 ajudou a provar um novo teorema sobre os números de Ramsey (combinatória), verificado formalmente em Lean. Também analisou um conjunto de dados genómicos de 62 amostras e 28 000 genes em poucos minutos — uma tarefa que teria exigido meses a uma equipa de investigadores.

« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »

🇵🇹 O GPT-5.5 é muito mais inteligente e persistente do que o GPT-5.4, com melhor desempenho em codificação e um uso de ferramentas mais fiável. — Michael Truell, cofundador e CEO da Cursor

🔗 Anúncio do GPT-5.5


A vaga dos agentes persistentes

Três anúncios importantes convergem neste 23 de abril em torno do agente persistente, capaz de agir de forma autónoma durante longos períodos e de reter o contexto de uma sessão para a outra.

OpenAI Workspace Agents no ChatGPT

22 de abril — A OpenAI apresenta os agentes de espaço de trabalho (Workspace Agents): agentes partilhados que uma equipa cria uma vez, usa em conjunto no ChatGPT ou no Slack e melhora progressivamente. Alimentados pelo Codex na nuvem, podem executar tarefas complexas mesmo quando o utilizador está desligado. Os Workspace Agents substituem progressivamente os GPT, que permanecem disponíveis durante a transição.

Tipo de agenteFuncionalidade
Verificador de softwareExamina pedidos, compara políticas, cria tickets IT
Router de feedback do produtoMonitoriza Slack/suporte/fóruns → tickets priorizados
Gerador de relatóriosExtrai dados de sexta-feira, cria gráficos, síntese
Agente de prospeçãoPesquisa leads, avalia, redige emails, atualiza CRM
Responsável por riscos de terceirosAvalia fornecedores, produz relatório estruturado

Disponíveis em research preview para Business, Enterprise, Edu e Teachers; gratuitos até 6 de maio de 2026, depois faturação em créditos.

Segundo Ankur Bhatt (AI Engineering, Rippling), o que antes demorava 5 a 6 horas por semana às equipas comerciais passa agora a executar-se automaticamente em segundo plano em cada oportunidade.

🔗 Workspace Agents


Anthropic — Memória para os Claude Managed Agents

23 de abril — A memória para os Claude Managed Agents está disponível em beta público na Claude Platform. Os agentes podem agora aprender de uma sessão para a outra graças a uma camada de memória montada diretamente sobre um sistema de ficheiros: os agentes usam as mesmas capacidades bash e de execução de código que já empregam para tarefas agentivas.

FuncionalidadeDetalhe
Stores partilháveisVários agentes, diferentes perímetros de acesso (apenas leitura / leitura-escrita)
Acesso concorrenteSem sobrescrita entre sessões paralelas
Registo de auditoriaQue sessão, que agente, que memória
ReversãoPara qualquer versão anterior
ExportabilidadeMemórias geríveis através da API

Os resultados dos clientes ilustram o impacto concreto:

ClienteResultado
Rakuten-97% de erros na primeira passagem, -27% de custo, -34% de latência
Wisedocs+30% de velocidade de verificação documental
NetflixContinuidade do contexto entre sessões sem atualização manual
AndoMemória de plataforma sem infraestrutura dedicada

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇵🇹 A memória nos Managed Agents permite-nos colocar a aprendizagem contínua em produção em grande escala. Os nossos agentes destilam as lições de cada sessão, produzindo 97 % menos erros na primeira passagem, com 27 % menos custo e 34 % menos latência. — Yusuke Kaji, General Manager AI for Business, Rakuten

🔗 Memória Managed Agents


Claude Code: post-mortem de qualidade e duas novas versões

Post-mortem e reposição dos limites

23 de abril — A equipa Claude Code publicou um post-mortem sobre três problemas de qualidade sinalizados ao longo do mês anterior. Todos estão corrigidos em v2.1.116+. Os limites de uso foram repostos para todos os assinantes.

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇵🇹 Ao longo do mês passado, alguns de vocês sinalizaram uma queda de qualidade no Claude Code. Investigámos e publicámos um post-mortem sobre os três problemas identificados. Todos estão corrigidos em v2.1.116+ e repusemos os limites de uso para todos os assinantes.@ClaudeDevs

v2.1.117 e v2.1.118

VersãoFuncionalidades principais
v2.1.118Modo visual Vim (v/V) com seleção e operadores; /usage unificado (funde /cost e /stats); temas personalizados em /theme; hooks que invocam ferramentas MCP via type: "mcp_tool"; DISABLE_UPDATES estrito; herança de managed settings Windows via WSL
v2.1.117Effort por defeito passou para high para Pro/Max no Opus 4.6 e Sonnet 4.6 (era medium); fork de subagentes ativável em builds externas; glob/Grep substituídos por bfs/ugrep embutidos para pesquisas mais rápidas; correção de sessões Opus 4.7 (contexto 1M calculado corretamente); correção de Bedrock+Opus 4.7 com thinking desativado

🔗 CHANGELOG do Claude Code


Novos conectores Claude para a vida quotidiana

23 de abril — A Anthropic expande o seu repertório de conectores para aplicações de consumo. Desde julho de 2025, estavam disponíveis mais de 200 conectores para ferramentas profissionais; esta atualização acrescenta 15 serviços do dia a dia.

AplicaçãoCategoria
AllTrailsCaminhada
AudibleAudiolivros
Booking.comViagens
InstacartCompras online
Intuit Credit KarmaFinanças
Intuit TurboTaxFiscalidade
ResyReservas de restaurante
SpotifyMúsica
StubHubBilhética
TaskrabbitServiços ao domicílio
ThumbtackProfissionais locais
TripAdvisorViagens
UberTransporte
Uber EatsEntrega de refeições
ViatorAtividades turísticas

O Claude sugere agora automaticamente os conectores relevantes de acordo com o contexto da conversa. Disponíveis em todos os planos (incluindo o gratuito), web, desktop e mobile (mobile em beta). Sem colocação paga nem resposta patrocinada; os dados de uma app não são usados para treinar os modelos.

🔗 Conectores para a vida quotidiana


GitHub Copilot — Sete atualizações em três dias

O GitHub Copilot publicou sete entradas no seu changelog entre 22 e 23 de abril.

Chat para pull requests (3 novas capacidades)

23 de abril — O Copilot Chat integra agora três capacidades para pull requests, acessíveis via github.com/copilot ou o botão Copilot nos diffs (preview pública):

  • Compreensão de PR (pull request understanding) : comentários, alterações, commits e reviews integrados como contexto
  • Review de PR: review estruturada a pedido
  • Resumo de PR: resumo conciso das alterações

🔗 Melhorias do Copilot Chat em PR

Sessões de agente controláveis a partir de issues e projetos

23 de abril — O cloud agent é agora controlável diretamente a partir das issues e dos boards de projetos GitHub: indicador de sessão no cabeçalho da issue, painel lateral de progresso, sessões ativadas por defeito em todas as vistas de projetos.

🔗 Sessões de agente a partir de issues

Depuração estruturada de stack traces na web

23 de abril — O Copilot Chat em github.com orienta agora a análise de stack traces em seis etapas estruturadas: o que falhou, porquê, a causa raiz, as provas vindas do código, o nível de confiança e as verificações seguintes.

🔗 Depuração de stack traces

BYOK VS Code disponível (GA)

22 de abril — Bring Your Own Key (traga a sua própria chave API) está em disponibilidade geral para utilizadores Copilot Business e Enterprise no VS Code. Anthropic, Gemini, OpenAI, OpenRouter, Azure são suportados, bem como modelos locais via Ollama e Foundry Local. A faturação é direta pelo fornecedor escolhido, fora das quotas Copilot.

🔗 BYOK VS Code GA

C++ Language Server em preview pública para Copilot CLI

22 de abril — O Microsoft C++ Language Server (motor IntelliSense do Visual Studio/VS Code) está disponível em preview pública para o Copilot CLI. Fornece dados semânticos precisos (definições de símbolos, referências, hierarquias de chamadas, tipos) em substituição da pesquisa grep iterativa. Pré-requisitos: autenticação Copilot CLI + compile_commands.json.

🔗 C++ Language Server

Novas inscrições Business self-serve suspensas

22 de abril — O GitHub suspende as novas inscrições self-serve para o Copilot Business nos planos GitHub Free e GitHub Team. Os clientes existentes não são afetados.

🔗 Pausa no Business self-serve

Campo used_copilot_cloud_agent nas métricas API

23 de abril — Na sequência do rebranding “coding agent” → “cloud agent”, a API de métricas adiciona o campo used_copilot_cloud_agent nos relatórios de utilizador (1 dia e 28 dias móveis). O campo antigo used_copilot_coding_agent é mantido até 1 de agosto de 2026.

🔗 Métricas do cloud agent


Gemini CLI v0.39.0 e Deep Think para todos os Ultra ### Gemini CLI v0.39.0

23 de abril — Google lança o Gemini CLI v0.39.0, versão estável marcada como “Latest”. O destaque é o novo comando /memory inbox para revisar e validar os skills extraídos automaticamente pelo CLI durante as sessões de trabalho.

FuncionalidadeDescrição
/memory inboxRevisão dos skills extraídos automaticamente
invoke_subagent unificadoFerramenta de subagente refatorada em interface única
Formatação compactaMelhor legibilidade no modo compacto
Plan Mode — confirmaçõesValidação necessária antes da ativação de skills
Inicialização leveProcesso pai leve para inicialização mais rápida
Migração JSONL streamingRegistro de sessões de chat em JSONL

Atalhos de teclado adicionados: Ctrl+Backspace para exclusão palavra por palavra (Windows Terminal), Ctrl+Shift+G.

🔗 Gemini CLI v0.39.0

Deep Think aberto a todos os assinantes Ultra

22 de abril — Google libera o modo Deep Think (raciocínio aprofundado, extended thinking) para todos os assinantes do Gemini Ultra. Esse modo estava anteriormente com acesso limitado; agora está disponível diretamente pelo menu de ferramentas do app Gemini (web e mobile).

🔗 Tweet @GeminiApp


Kimi K2.6 : enxame de 300 subagentes e benchmarks open-weights

Agent Swarm — 300 subagentes paralelos

23 de abril — A Moonshot AI lança o Kimi K2.6 Agent Swarm: um sistema capaz de implantar 300 subagentes em paralelo em 4 000 etapas por execução, contra 100 agentes e 1 500 etapas no K2.5.

CapacidadeK2.5K2.6
Subagentes paralelos100300
Etapas por execução1 5004 000
Tipos de outputsTexto de chat100+ arquivos reais, reviews de 100 000 palavras, datasets de 20 000 linhas

Os subagentes combinam habilidades heterogêneas: pesquisa na web, análise de dados, codificação, redação de longa forma e geração visual. Disponível em kimi.com/agent-swarm.

🔗 Tweet @Kimi_Moonshot

Benchmarks: número 1 open-weights

23 de abril — O Kimi K2.6 alcança o primeiro lugar entre os modelos open-weights em dois benchmarks:

  • Design Arena: mesma faixa de desempenho que o Claude Opus 4.7
  • MathArena open (modo Think): à frente do GLM 5.1

🔗 Design Arena


SpaceXAI × Cursor e Grok Imagine

Parceria SpaceXAI × Cursor

22 de abril — A SpaceXAI (entidade resultante da aproximação xAI/SpaceX) e a Cursor anunciam uma parceria para criar “a IA de codificação e trabalho do conhecimento mais performática do mundo”. A SpaceX traz o supercomputador Colossus (equivalente a um milhão de H100); a Cursor concede a ela o direito de adquirir a empresa mais tarde em 2026 por $60 bilhões, ou de pagar $10 bilhões apenas pela colaboração.

🔗 Tweet @SpaceX

Grok Imagine — Templates personalizados compartilháveis

22 de abril — Os assinantes SuperGrok e Premium+ agora podem criar templates personalizados no Grok Imagine e compartilhá-los publicamente.

🔗 Tweet @imagine


NVIDIA × Google Cloud Next

22 de abril — No Google Cloud Next (Las Vegas), NVIDIA e Google Cloud anunciam vários avanços importantes em torno da infraestrutura de IA agentica.

AnúncioDetalhe
Instâncias A5X (Vera Rubin NVL72)Até 960 000 GPUs Rubin em cluster multisite, 10× mais barato por token, 10× mais throughput por megawatt
Gemini no Google Distributed CloudPreview com GPUs Blackwell e Blackwell Ultra — soberania de dados
Confidential VMs BlackwellPrimeira oferta de computação confidencial (confidential computing) Blackwell na nuvem pública
Nemotron 3 SuperDisponível na Gemini Enterprise Agent Platform
NeMo RL APIAprendizado por reforço (Reinforcement Learning) gerenciado em grande escala

🔗 Blog NVIDIA × Google Cloud


Kling AI Video 3.0 — Modo 4K nativo

23 de abril — Kling AI lança o modo 4K nativo em sua série Video 3.0. A geração 4K é feita em um único clique, sem etapa adicional de upscaling. A consistência visual (personagens, textos, estilos, iluminação) é assegurada em resolução nativa para produção de alto padrão. Também disponível via fal.ai para empresas.

A Kling AI organiza simultaneamente um 4K Short Film Creative Contest, concurso global que convida criadores a submeter curtas-metragens feitos com o novo modo.

🔗 Tweet @Kling_ai


ChatGPT for Clinicians e OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

22 de abril — A OpenAI lança ChatGPT for Clinicians, uma versão gratuita para profissionais de saúde verificados nos Estados Unidos (médicos, enfermeiros praticantes, assistentes médicos, farmacêuticos). O serviço inclui acesso aos modelos frontier para questões clínicas complexas, skills para fluxos de trabalho repetitivos (cartas de encaminhamento, autorizações prévias), pesquisa clínica citada em tempo real e geração automática de créditos de educação continuada (CME). O tratamento HIPAA está disponível como opção via acordo.

A OpenAI também publica HealthBench Professional, um benchmark aberto que avalia a IA em tarefas clínicas reais (700 000+ respostas avaliadas por médicos). O GPT-5.4 no ChatGPT for Clinicians supera médicos humanos nesse benchmark em condições sem limite de tempo com acesso à web.

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

22 de abril — A OpenAI publica Privacy Filter, um modelo open-weight (Apache 2.0) para detectar e mascarar informações pessoalmente identificáveis (Personally Identifiable Information, PII) no texto. O modelo roda localmente (nenhum dado é enviado para um servidor), suporta 128K tokens de contexto e atinge uma pontuação F1 de 97.43% no benchmark PII-Masking-300k.

CaracterísticaValor
ArquiteturaClassificador de tokens bidirecional (decodificação Viterbi restrita)
Tamanho1.5B parâmetros totais, 50M ativos
Contexto128 000 tokens
LicençaApache 2.0 (Hugging Face + GitHub)
F197.43% no PII-Masking-300k corrigido

Categorias de PII cobertas: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret (senhas e chaves de API).

🔗 OpenAI Privacy Filter


Perplexity e Cohere

Perplexity integra Kimi K2.6

23 de abril — O Kimi K2.6 da Moonshot AI já está disponível para todos os assinantes Pro e Max da Perplexity.

🔗 Tweet @perplexity_ai

Cohere — W4A8 pronto para produção no vLLM

22 de abril — A Cohere anuncia a integração de sua inferência W4A8 (quantização de 4 bits para os pesos, 8 bits para as ativações) no vLLM. Resultados em GPU Hopper versus W4A16: +58% no tempo até o primeiro token (Time To First Token) e +45% no tempo por token de saída (Time Per Output Token). A integração prioriza os modelos MoE Command A em grande escala em produção.

🔗 Blog Cohere W4A8


Breves

Suno número 1 na App Store de música

21 de abril — A Suno, plataforma de geração musical por IA, alcança o primeiro lugar da App Store na categoria música. O CEO Mikey Shulman anuncia: « O futuro da música é aquele em que todos gostam de criar. »

🔗 Tweet @suno

Anthropic Economic Index Survey

22 de abril — A Anthropic lança a Anthropic Economic Index Survey, uma pesquisa mensal conduzida via Anthropic Interviewer com uma amostra aleatória de usuários Claude. O objetivo é coletar dados qualitativos sobre o impacto econômico da IA: tarefas delegadas, ganhos de produtividade, mudanças de funções. Os resultados alimentarão os futuros relatórios Anthropic Economic Index.

🔗 Anúncio da pesquisa

Anthropic — Agentes MCP em produção: os números

22 de abril — Um artigo técnico da Anthropic documenta os benefícios de MCP para agentes de produção: os SDKs MCP ultrapassam 300 milhões de downloads por mês, a busca de ferramentas (tool search) reduz os tokens de definição de ferramentas em 85%, e as chamadas programáticas de ferramentas (programmatic tool calling) reduzem o uso de tokens em 37% em fluxos de trabalho complexos de múltiplas etapas.

🔗 Blog MCP production agents

OpenAI — WebSockets na API Responses: ganho de 40% de latência

22 de abril — Artigo retrospectivo da OpenAI explicando como o modo WebSocket na API Responses reduz a latência dos loops de agentes em 40%. A conexão persistente mantém um cache em memória do estado das respostas anteriores, evitando reprocessar todo o histórico a cada chamada. Já em produção: Codex, Vercel AI SDK, Cline (+39%), Cursor (+30%).

🔗 Artigo WebSockets

Perplexity Research — Treinamento de modelos de busca aumentada

22 de abril — A Perplexity publica uma pesquisa sobre seu pipeline SFT + RL (Supervised Fine-Tuning + Reinforcement Learning) para melhorar a qualidade das respostas de busca. Resultado principal: modelos Qwen pós-treinados atingem a factualidade dos modelos GPT com menor custo.

🔗 Research Perplexity


O que isso significa

23 de abril de 2026 desenha duas tendências convergentes. De um lado, o GPT-5.5 confirma que a OpenAI recuperou a liderança nos benchmarks agenticos (Terminal-Bench, ARC-AGI-2, OSWorld) após vários meses em que o Claude Opus 4.7 dominava. O gap continua apertado no SWE-Bench Pro, onde a Anthropic mantém a vantagem — sinal de que os dois laboratórios convergem para os mesmos casos de uso prioritários.

Do outro lado, o dia marca a entrada na era dos agentes persistentes com memória: OpenAI Workspace Agents, Anthropic Managed Agents Memory e Kimi K2.6 Agent Swarm chegam simultaneamente com abordagens diferentes (integração com Slack, filesystem-based, enxame de subagentes), mas com o mesmo objetivo — fazer com que o agente se lembre, aprenda e aja sem supervisão constante. Os números da Rakuten (-97% de erros, -27% de custo) dão uma primeira medida industrial do impacto.

O GitHub Copilot continua sua estratégia de integração profunda no GitHub.com (PR chat, agent sessions a partir de issues, stack traces estruturados) ao mesmo tempo em que se abre ao exterior via BYOK. O BYOK VS Code GA sinaliza que o Copilot se posiciona tanto como interface quanto como modelo.


Fontes

Este documento foi traduzido da versão fr para a língua pt usando o modelo gpt-5.4-mini. Para mais informações sobre o processo de tradução, consulte https://github.com/jls42/ai-powered-markdown-translator