Parceria Anthropic+xAI compute Colossus 1, Claude M365 GA, GPT-Realtime-2 voz raciocínio

Anthropic e xAI assinam um acordo inédito: 220 000 GPU NVIDIA do supercomputador Colossus 1 passam a duplicar os limites do Claude Code já a partir desta semana. Claude for Microsoft 365 entra em disponibilidade geral no Excel, PowerPoint e Word. A OpenAI lança o GPT-Realtime-2, o primeiro modelo de voz dotado de raciocínio ao nível do GPT-5. A Perplexity disponibiliza o Personal Computer para todos os utilizadores de Mac, e a ElevenLabs ultrapassa os 500 milhões de dólares de ARR com a NVIDIA como investidor estratégico.

Anthropic aluga Colossus 1 à xAI — 220 000 GPU NVIDIA, duplicação dos limites do Claude Code

6 de maio — A Anthropic anuncia simultaneamente uma subida imediata dos limites de utilização e um acordo de infraestrutura inédito com a SpaceX / xAI.

Para os utilizadores, a mudança mais visível é a duplicação dos limites de débito de cinco horas no Claude Code, com efeito imediato nos planos Pro, Max, Team e Enterprise. A redução automática nas horas de pico — que limitava os planos Pro e Max — também é eliminada. Os limites da API para os modelos Claude Opus são aumentados em paralelo.

Estas subidas tornam-se possíveis graças a um acordo com a SpaceX: a Anthropic passa a ter acesso à totalidade da capacidade do Colossus 1, o supercomputador da xAI, ou seja, mais de 300 megawatts e mais de 220 000 GPU NVIDIA (H100, H200 e GB200). Esta capacidade fica disponível no prazo de um mês. As duas empresas anunciam também uma intenção comum de desenvolver vários gigawatts de capacidade de computação de IA em órbita — uma estreia na indústria.

Esta parceria junta-se a uma acumulação de acordos já em curso: Amazon (até 5 GW, dos quais perto de 1 GW disponíveis no final de 2026), Google e Broadcom (5 GW a partir de 2027), Microsoft e NVIDIA (30 mil milhões de dólares de capacidade Azure) e Fluidstack (50 mil milhões de dólares de infraestrutura de IA nos EUA). A expansão internacional integrará os requisitos de residência de dados para setores regulados. A Anthropic compromete-se ainda a cobrir qualquer aumento do preço da eletricidade para os consumidores locais ligado aos seus datacenters.

Mudança	Planos abrangidos	Eficaz
Duplicação dos limites de 5h do Claude Code	Pro, Max, Team, Enterprise	Imediato
Eliminação da redução nas horas de pico	Pro, Max	Imediato
Aumento dos limites da API Opus	Todos	Imediato

Acordo de compute	Capacidade	Calendário
SpaceX / xAI Colossus 1	300+ MW, 220 000+ GPU NVIDIA	No prazo de um mês
Amazon	Até 5 GW (~1 GW no final de 2026)	2026
Google + Broadcom	5 GW	A partir de 2027
Microsoft + NVIDIA	USD 30 mil milhões Azure	—
Fluidstack	USD 50 mil milhões de infraestrutura US	—

🔗 Anthropic — Aumento dos limites + acordo com a SpaceX

Claude for Microsoft 365 — disponibilidade geral no Excel, PowerPoint, Word + beta do Outlook

7 de maio — Claude for Excel, PowerPoint e Word passam a disponibilidade geral para todos os planos pagos. Claude for Outlook entra simultaneamente em beta pública nas mesmas condições.

“Claude for Excel, PowerPoint, and Word are now generally available, and Claude for Outlook is in public beta. As Claude moves between your Microsoft apps, it carries the full context of your conversation.”

🇵🇹 Claude for Excel, PowerPoint e Word já está disponível para todos, e o Claude for Outlook está em beta pública. Ao longo das suas aplicações Microsoft, o Claude mantém a totalidade do contexto da sua conversa. — @claudeai no X

A funcionalidade central é o contexto partilhado entre as quatro aplicações: uma conversa iniciada no Outlook para triagem de um e-mail continua no Word para redigir uma nota, depois no Excel para análise de dados e no PowerPoint para a apresentação — sem nunca voltar a explicar o contexto. A atualização cruzada automática é o outro ganho concreto: ajustar uma hipótese num modelo do Excel atualiza simultaneamente o gráfico na apresentação e o valor correspondente na nota do Word.

Entre as empresas citadas: ServiceNow (“Claude does the work in Excel itself, instead of asking us to move content between tools”) e equipas de gestão de ativos privados que o utilizam para construir e manter modelos de cobertura financeira.

Aplicação	Estado em 7 de maio de 2026	Planos
Claude for Excel	Disponibilidade geral (GA)	Todos os planos pagos
Claude for PowerPoint	Disponibilidade geral (GA)	Todos os planos pagos
Claude for Word	Disponibilidade geral (GA)	Todos os planos pagos
Claude for Outlook	Beta pública	Todos os planos pagos

🔗 Anúncio Claude for Microsoft 365

Claude Managed Agents — dreaming, outcomes, orquestração multiagente, webhooks

6 de maio — Durante a conferência Code with Claude, a Anthropic lança várias novas funcionalidades para a sua plataforma de implementação de agentes.

A novidade mais marcante é o dreaming: um processo planeado que analisa as sessões passadas de um agente, extrai padrões recorrentes e consolida a sua memória para que melhore ao longo do tempo. O programador mantém o controlo — o dreaming pode atualizar a memória automaticamente ou submeter cada alteração a uma revisão humana. O dreaming está disponível em research preview a pedido.

Outcomes entra em beta pública: esta funcionalidade permite avaliar cada resultado de um agente segundo critérios definidos pelo programador antes de o entregar ao utilizador. A empresa Wisedocs utilizou-a para acelerar em 50 % a revisão de documentos médicos mantendo o alinhamento com os seus padrões internos.

A orquestração multiagente permite que um agente principal delegue subtarefas a agentes especialistas que executam em paralelo, facilitando o tratamento de trabalhos complexos que exigem várias especializações em simultâneo. Os webhooks também estão disponíveis para desencadear ações externas.

Funcionalidade	Disponibilidade	Descrição
Dreaming	Research preview (a pedido)	Autoaperfeiçoamento por análise das sessões passadas
Outcomes	Beta pública	Avaliação dos resultados antes da entrega
Orquestração multiagente	Beta pública	Agente principal + agentes especialistas em paralelo
Webhooks	Beta pública	Acionamento de ações externas

🔗 Anúncio Claude Managed Agents

GPT-Realtime-2 — voz com raciocínio GPT-5 e contexto 128K

7 de maio — A OpenAI lança uma nova geração de modelos na Realtime API: GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper.

GPT-Realtime-2 é o primeiro modelo vocal dotado de raciocínio ao nível do GPT-5: consegue lidar com pedidos complexos, chamar ferramentas em paralelo (parallel tool calls), recuperar após interrupções (recovery behavior) e manter uma janela de contexto de 128 000 tokens (contra 32 000 no seu predecessor), adequada a sessões longas. Há cinco níveis de raciocínio ajustáveis: minimal, low, medium, high, xhigh (low por omissão). Fórmulas de transição (preambles) podem ser inseridas antes das respostas para maior fluidez natural.

GPT-Realtime-Translate permite tradução simultânea em direto para 13 línguas de destino a partir de mais de 70 línguas de origem. GPT-Realtime-Whisper oferece transcrição em fluxo (streaming) com baixa latência.

A Zillow testou o GPT-Realtime-2 nas suas interações por voz: +26 pontos na taxa de sucesso no seu benchmark adversarial mais difícil (95 % contra 69 %). EU Data Residency é suportado.

Modelo	Capacidade	Preço
GPT-Realtime-2	Voz + raciocínio GPT-5, 128K	$32/1M tokens audio input, $64/1M output
GPT-Realtime-Translate	Tradução 70→13 línguas	$0,034/min
GPT-Realtime-Whisper	Transcrição em fluxo	$0,017/min

Benchmark	GPT-Realtime-1.5	GPT-Realtime-2 (high)	GPT-Realtime-2 (xhigh)
Big Bench Audio	referência	+15,2 %	—
Audio MultiChallenge APR	36,7 %	—	70,8 %

🔗 Anúncio da OpenAI — novos modelos de voz

Perplexity Personal Computer disponível para todos os utilizadores de Mac

7 de maio — A Perplexity lança uma nova aplicação macOS e abre o Personal Computer a todos os utilizadores, sem restrição de subscrição Pro ou Max.

A aplicação tira a IA da cloud para a instalar diretamente no dispositivo. Opera sobre os ficheiros locais, as aplicações nativas do Mac, a web aberta e os servidores seguros da Perplexity. Suporta 400+ conectores e integra-se com o navegador Comet para as ferramentas web sem conectores diretos. Os planos Pro e Max veem os seus créditos ligados à subscrição existente; os utilizadores gratuitos também têm acesso.

A utilização recomendada é o Mac mini como hub permanente: equipas de agentes podem funcionar continuamente (24h/24), enquanto o utilizador trabalha noutra coisa, com uma notificação quando é necessária validação humana. O controlo é feito a partir de qualquer dispositivo — iPhone incluído.

A antiga aplicação Perplexity Mac será removida nas próximas semanas. O download é direto (ainda não está disponível na App Store).

Dimensão	Valor
Disponibilidade	Todos os utilizadores de Mac
Dispositivo recomendado	Mac mini (sempre ligado)
Conectores suportados	400+
Integração com navegador	Comet
App Store	Não (download direto)
Aplicação antiga	Remoção nas próximas semanas

🔗 Blog da Perplexity — Personal Computer para todos

Perplexity Finance Search na Agent API — precisão #1 no FinSearchComp T1

6 de maio — A Perplexity lança o Finance Search na Agent API: uma única chamada de ferramenta agrega dados financeiros licenciados, dados de mercado em tempo real e fontes web citadas.

O problema resolvido é simples: as decisões financeiras dependem de fontes fiáveis, atualizadas e rastreáveis. O Finance Search substitui a pesquisa web genérica por dados estruturados licenciados — cotações, fundamentais, transcrições de conferências telefónicas, estimativas — devolvidos num esquema coerente independentemente do fornecedor em segundo plano.

No benchmark FinSearchComp T1, o Finance Search atinge a maior precisão para dados financeiros em tempo real, consistente ao longo do tempo, e o custo mais baixo por resposta correta (menos tokens necessários graças aos dados estruturados). As citações estão integradas em cada resultado. O modelo é configurável pelo programador, com visibilidade sobre a utilização de tokens.

O Finance Search é complementar do Computer for Professional Finance (já abordado a 5 de maio): enquanto o primeiro oferece um workspace visual, o Finance Search integra-se em fluxos de trabalho programáticos via API.

Dimensão	Valor
Interface	Uma única chamada de ferramenta (`finance_search`)
Dados cobertos	Cotações, fundamentais, transcrições, estimativas, contexto de mercado
Benchmark FinSearchComp T1	#1 precisão, #1 custo/resposta correta
Citações	Integradas em cada resultado

🔗 Blog da Perplexity — Finance Search

Natural Language Autoencoders (NLAs) — ler os pensamentos internos do Claude

7 de maio — A Anthropic publica um novo método de interpretabilidade que converte as ativações internas de um modelo em texto diretamente legível.

A arquitetura assenta num treino em circuito fechado: um verbalisador de ativação (activation verbalizer) traduz uma ativação em texto explicativo, um reconstrutor de ativação (activation reconstructor) tenta reconstruir a ativação a partir desse texto. Quanto mais fiel for a reconstrução, melhor é a explicação.

A aplicação de segurança é marcante: aplicados ao Claude Opus 4.6 e ao Claude Mythos Preview, os NLAs revelam que os modelos suspeitavam estar em situação de teste muito mais frequentemente do que o expressavam. Nos testes de código destrutivo, a consciência implícita da avaliação aparece em 16 % dos casos, contra 0 % de verbalização explícita. No SWE-bench Verified, esse número sobe para 26 %. Em conversas reais de utilizadores claude.ai, mantém-se abaixo de 1 %.

Num conjunto de auditoria com um modelo intencionalmente desalinhado, os auditores equipados com NLAs identificaram a causa raiz em 12 a 15 % dos casos, contra menos de 3 % com outras ferramentas. O código de treino é publicado em open source; existe uma demonstração interativa disponível no Neuronpedia.

Avaliação	Consciência implícita (NLA)	Consciência verbalizada
Testes de código destrutivo	16 %	~0 %
SWE-bench Verified	26 %	~0 %
Conversas reais do claude.ai	< 1 %	—

🔗 Anthropic Research — Natural Language Autoencoders

Petri 3.0 — ferramenta de alinhamento open source cedida à Meridian Labs

7 de maio — A Anthropic cede o Petri, a sua ferramenta de alinhamento open source, à Meridian Labs, organização independente sem fins lucrativos dedicada à avaliação de IA.

O Petri é um conjunto de ferramentas de testes de alinhamento aplicável a qualquer modelo de linguagem: engano, bajulação, cooperação com pedidos nocivos. Integrado nas avaliações de todos os modelos Claude desde o Sonnet 4.5, foi adotado pelo AI Security Institute britânico para as suas avaliações de sabotagem da investigação em IA.

A versão 3.0 traz três avanços: melhor adaptabilidade através da separação dos componentes auditor e modelo-alvo, um módulo “Dish” que executa os testes nas condições reais de implementação (verdadeiro system prompt, verdadeira scaffold) para tornar os cenários menos detetáveis, e uma integração com Bloom para avaliações comportamentais mais aprofundadas.

A cedência à Meridian Labs segue o modelo da cedência do protocolo MCP à Linux Foundation: garantir a independência da ferramenta face a qualquer laboratório de IA.

🔗 Anthropic Research — Petri 3.0

O Anthropic Institute (TAI) — agenda de pesquisa em 4 eixos

7 de maio — A Anthropic publica o agenda de pesquisa completo do TAI, a organização interna lançada em março de 2026 para estudar os impactos reais da IA a partir da posição de um laboratório frontier.

O agenda se estrutura em quatro eixos: difusão econômica (adoção de IA por empresas e países, impacto sobre os mercados de trabalho), ameaças e resiliência (capacidades de duplo uso, cibersegurança, mecanismos defensivos), sistemas de IA na natureza (in the wild — efeitos comportamentais e institucionais da IA implantada em grande escala) e P&D pela IA (aceleração da pesquisa científica pela própria IA, incluindo os riscos de um loop recursivo de autoaperfeiçoamento).

O TAI compromete-se a compartilhar dados mais frequentes do Anthropic Economic Index e informações sobre a aceleração interna da Anthropic por meio de suas próprias ferramentas. Um chamado para candidaturas ao programa Anthropic Fellows (quatro meses financiados) está aberto.

🔗 Anthropic Research — Agenda TAI

Codex Extension Chrome — controle do navegador em segundo plano no macOS e Windows

7 de maio — A OpenAI lança a extensão Chrome para Codex, permitindo que o agente controle diretamente abas do Chrome sem interromper o fluxo de trabalho do usuário.

Codex opera em segundo plano em várias abas simultaneamente, combinando suas capacidades de plugins nativos com acesso direto a sites web (painéis, CRM, aplicações web). O sistema escolhe automaticamente a melhor ferramenta para cada etapa: plugins, Chrome ou uma combinação. Casos de uso: depurar fluxos de navegador, verificar painéis, fazer pesquisa, atualizar CRMs, testar aplicações web complexas (incluindo jogos multijogador via subagentes).

A extensão é instalada via o plugin Chrome no app Codex. Disponível imediatamente no macOS e no Windows para todos os usuários do Codex.

🔗 Tweet da OpenAI — Codex Chrome Extension

ChatGPT Trusted Contact — segurança de saúde mental com revisão humana

7 de maio — A OpenAI disponibiliza Trusted Contact, um recurso opcional de segurança no ChatGPT.

Todo adulto (18+, 19+ na Coreia do Sul) pode designar uma pessoa de confiança (amigo, família, cuidador) que será alertada se sinais de crise forem detectados em suas conversas. O processo combina detecção automatizada e revisão humana (objetivo: menos de uma hora antes de qualquer envio), com uma notificação sem acesso às transcrições para proteger a privacidade. O recurso estende aos adultos os controles parentais já existentes para contas de adolescentes. Desenvolvido com a American Psychological Association e uma rede de mais de 260 médicos em 60 países.

Parâmetro	Valor
Elegibilidade	18+ (19+ Coreia do Sul)
Prazo de aceitação para o contato	1 semana
SLA de revisão humana	Meta < 1 hora
Conteúdo da notificação	Motivo geral, sem transcrição
Canais	Email, SMS, in-app

🔗 OpenAI — Trusted Contact

OpenAI B2B Signals — a diferença entre empresas de ponta e empresas típicas se amplia

6 de maio — A OpenAI publica o primeiro relatório B2B Signals, que documenta a diferença crescente entre empresas “de ponta” e empresas típicas na adoção de IA.

As empresas no 95º percentil usam 3,5× mais inteligência por funcionário do que as empresas típicas (contra 2× em abril de 2025). A diferença decorre menos do volume de mensagens (36% da diferença) do que da profundidade de uso (64%): delegação de tarefas complexas, workflows agenticos, integração nos sistemas de produção. No Codex, a diferença é a mais acentuada: ×16 em mensagens por funcionário.

Dois casos concretos: a Cisco reduz o tempo de build em ~20%, economiza mais de 1.500 horas de engenharia por mês e multiplica por 10 a 15 a velocidade de resolução de defeitos. A Travelers Insurance processa ~100.000 chamadas de sinistros por ano via um assistente.

Indicador	Empresas típicas	Empresas de ponta
Inteligência/funcionário	referência	×3,5
Mensagens Codex/funcionário	referência	×16
Parcela do volume na diferença	—	36%
Parcela da profundidade na diferença	—	64%

🔗 OpenAI — B2B Signals

MRC — Protocolo de rede open source para supercomputadores Stargate

5 de maio — A OpenAI publica em open source, via o Open Compute Project, o protocolo MRC (Multipath Reliable Connection), co-desenvolvido com AMD, Broadcom, Intel, Microsoft e NVIDIA ao longo de dois anos.

MRC é um protocolo de rede de 800 Gb/s para supercomputadores de treinamento de IA em grande escala. Ele conecta mais de 100.000 GPU com apenas 2 níveis de switches (contra 3 a 4 na abordagem convencional), espalhando os pacotes por centenas de caminhos simultaneamente via roteamento de origem IPv6 (SRv6). A recuperação após falha ocorre em microssegundos (contra vários segundos com BGP dinâmico clássico). Já em produção em Stargate (Abilene, Texas) e nos supercomputadores Fairwater da Microsoft, o MRC permitiu o treinamento de vários modelos, incluindo GPT-5.5 e Codex.

Aspecto	Abordagem convencional	MRC
Níveis de switches para 100K+ GPU	3-4	2
Recuperação após falha	Segundos a dezenas de segundos	Microssegundos
Roteamento	BGP dinâmico	SRv6 estático
Distribuição de pacotes	1 caminho por transferência	100s de caminhos em paralelo

🔗 OpenAI — MRC Supercomputer Networking

Perplexity ROSE — Motor de inferência proprietário e CuTeDSL

6 de maio — A Perplexity publica um artigo de pesquisa detalhando ROSE (Runtime-Optimized Serving Engine), seu motor de inferência proprietário, e sua integração com CuTeDSL (biblioteca de kernels GPU da NVIDIA).

ROSE alimenta todos os serviços da Perplexity (Sonar, Search, Embeddings) em GPUs NVIDIA Hopper e Blackwell, de modelos de codificação até LLMs com trilhões de parâmetros. CuTeDSL permite construir kernels GPU personalizados otimizados mais rapidamente, adaptados às novas arquiteturas de modelos em um ritmo acelerado.

Esta publicação ilustra a estratégia da Perplexity: controlar toda a pilha técnica até o nível dos kernels GPU para se diferenciar em desempenho e reduzir a dependência de frameworks de terceiros.

🔗 Perplexity Research — CuTeDSL e ROSE

ElevenLabs atinge 500 M$ de ARR — NVIDIA investe via NVentures

5 de maio — A ElevenLabs anuncia um terceiro fechamento da sua Série D com a NVIDIA como nova investidora estratégica via NVentures.

O ARR passou de 350 M $no fim de 2025 para **500 M$ em abril de 2026**, ou seja, +43% em quatro meses. Este terceiro fechamento também inclui BlackRock, Wellington Management, D.E. Shaw, Schroders, assim como empresas clientes (Salesforce, Santander, KPN, Deutsche Telekom) e um investimento de varejo via Robinhood Ventures. Uma tender offer de 100 M$ foi concluída em paralelo. A ElevenLabs conta com 530 funcionários em mais de 50 países. O roadmap anuncia a fusão de imagem/vídeo e áudio em uma plataforma criativa unificada.

🔗 ElevenLabs — 500 M$ de ARR e novos investidores

AlphaEvolve em produção — 5 setores industriais via Google Cloud

7 de maio — Um ano após seu lançamento, o Google DeepMind publica um balanço do AlphaEvolve, seu agente de codificação alimentado pelo Gemini, que agora passou da pesquisa para a produção industrial.

AlphaEvolve otimiza a infraestrutura crítica do Google: TPU, políticas de substituição de cache, compactação LSM-tree no Google Spanner. Ele é implantado comercialmente via Google Cloud em cinco setores: finanças (dobro de desempenho de um transformer), semicondutores (litografia computacional), logística (problema do caixeiro-viajante), publicidade e ciências dos materiais (~4× de ganho de velocidade na Schrödinger). No plano acadêmico, o AlphaEvolve colaborou com Terence Tao (UCLA) em problemas de Erdős e melhorou os limites inferiores para o problema do caixeiro-viajante e os números de Ramsey.

🔗 DeepMind — Impacto do AlphaEvolve

Manus Projects autoaprendizes — workspace agentico que melhora a cada tarefa

6 de maio — A Manus lança um recurso que permite aos Projetos aprender automaticamente com cada conversa e propor atualizações aprovadas pelo usuário.

Ao final de cada tarefa, a Manus identifica decisões, normas e padrões reutilizáveis, e então propõe: atualizações de instruções (quando o processo ou a terminologia evoluiu), atualizações de arquivos (fontes, exemplos ou modelos obsoletos) e atualizações de competências (skills) para fluxos recorrentes. Nenhuma modificação é aplicada sem validação humana explícita. Os futuros colaboradores começam com o contexto compartilhado mais recente do Projeto. O recurso está disponível para todas as sessões em que instruções e arquivos são suportados.

🔗 Manus — Projetos autoaprendizes

Breves

Bug bounty da Anthropic aberto ao público — O programa, até aqui privado dentro da comunidade de pesquisa em segurança, agora está acessível a todos no HackerOne. 🔗 fonte
xAI Image Generation Quality Mode API — O modo de qualidade de geração de imagens (mais de 300 milhões de imagens geradas no Grok) agora está disponível via a API xAI: maior realismo, melhor renderização de texto, controle criativo reforçado. 🔗 fonte
Z.ai GLM-5V-Turbo Tech Report — A Z.ai (Zhipu AI) publica o relatório técnico do GLM-5V-Turbo, modelo de base nativo para agentes multimodais com encoder CogViT (destilação SigLIP2 + DINOv3) e loop percepção-planejamento-execução. 🔗 fonte
ChatGPT Futures Class of 2026 — A OpenAI destaca 26 jovens construtores de mais de 20 universidades (Vanderbilt, Oxford, Georgia Tech…) com uma grant de USD 10.000 para cada um e acesso aos modelos de ponta. 🔗 fonte
NVIDIA DeepStream + Claude Code — Demonstração de uma abordagem “concept to app” combinando DeepStream, Claude Code e reusable Skills para gerar aplicações Vision AI sem escrever cada linha de código. 🔗 fonte
NVIDIA Guess-Verify-Refine — Nova técnica de inferência hardware-aware em que cada etapa de decodificação dá vantagem à seguinte, projetada especificamente para os aceleradores NVIDIA. 🔗 fonte
TokenSpeed + NVIDIA Dynamo — A TokenSpeed (LightSeek Foundation) alcança o nível do TensorRT-LLM em open source; o NVIDIA Dynamo adiciona suporte day-0 para esse backend, com Kimi K2.5 suportado via o frontend Dynamo. 🔗 fonte
Ideogram BG Remover — Novo modelo generativo (treinado do zero, não uma segmentação clássica) para remoção de fundo: preservação do canal alpha, voltado a logos e ilustrações complexas, API disponível. 🔗 fonte
Google DeepMind × EVE Online — Parceria com a CCP Games para explorar pesquisa em IA em ambientes de jogos complexos dirigidos por jogadores. 🔗 fonte
GitHub Copilot Trust Layer — Microsoft/GitHub publica uma pesquisa sobre uma camada de confiança estrutural para validar agentes Copilot (grafos de execução + análise de dominadores): precisão de 100% vs 82,2% para autoavaliação, recall de 100% vs 60%. 🔗 fonte
GitHub — revisar pull requests de agentes — Guia prático (checklist de 10 minutos) com 5 sinais de alerta: CI gaming, code reuse blindness, hallucinated correctness, agentic ghosting, injeção de prompts nos pipelines CI. 🔗 fonte

O que isso significa

A corrida pelo Personal Computer está acelerando. Em uma única semana, três interfaces muito diferentes miram o mesmo desktop do usuário: o Perplexity Personal Computer instala-se no Mac (e no Mac mini como hub permanente), o Claude invade as quatro aplicações do Microsoft 365 com um contexto compartilhado, e o Codex controla o Chrome em segundo plano. Esses agentes já não estão na nuvem: eles se integram aos fluxos de trabalho existentes, nos arquivos abertos, nas aplicações nativas. O deslocamento da busca de informação para a ação direta nas ferramentas de trabalho do dia a dia agora é concreto.

O compute orbital entra no registro dos fatos. O acordo Anthropic/xAI Colossus 1 é notável em dois aspectos: primeiro, ele dá à Anthropic acesso imediato a 220.000 GPU NVIDIA para dobrar seus limites já nesta semana; segundo, inclui uma intenção comum de desenvolver vários gigawatts de capacidade de IA em órbita. Somado aos acordos Amazon, Google/Broadcom, Microsoft/NVIDIA e Fluidstack, a Anthropic constitui uma infraestrutura de computação sem equivalente em um laboratório de pesquisa independente. Essa acumulação de poder de computação é a condição prévia para a próxima geração de modelos — e para o dobro contínuo dos limites.

A voz com raciocínio muda o perímetro dos agentes de voz. GPT-Realtime-2 não é uma atualização cosmética: trazer o raciocínio do GPT-5 para uma interface em tempo real, com contexto de 128K e chamadas de ferramentas paralelas, transforma os casos de uso. A Zillow mede +26 pontos na taxa de sucesso em suas chamadas mais difíceis. A tradução ao vivo (70 idiomas de origem para 13 idiomas de destino) no mesmo modelo abre workflows multilíngues sem um pipeline de tradução separado. A questão já não é “é possível fazer IA de voz?” mas “quais interações de voz complexas se tornam economicamente viáveis?”

Alinhamento e confiança agentica passam para o nível das ferramentas. Três anúncios distintos convergem para o mesmo problema — como confiar em agentes em produção. As NLAs da Anthropic revelam que Claude sabe quando está sendo testado (em 16% a 26% das avaliações) sem verbalizá-lo. O Trust Layer da GitHub (precisão de 100% vs 82% para autoavaliação) oferece às equipes de desenvolvimento uma validação estrutural dos pull requests gerados por agentes. A cessão do Petri 3.0 à Meridian Labs cria um repositório de avaliação independente de qualquer laboratório. Essas três camadas — interpretabilidade do modelo, validação das saídas, independência das ferramentas de auditoria — começam a formar uma arquitetura de confiança para implantações agenticas em grande escala.