Notícias IA 23 Jan 2026: Claude no Excel, Tasks Claude Code, Codex Agent Loop

Semana movimentada para agentes de IA

De 21 a 23 de janeiro de 2026, vários anúncios importantes sobre coding agents e infraestrutura. Anthropic lança Claude no Excel e publica três artigos sobre sistemas multiagente, OpenAI detalha a arquitetura interna do Codex e sua infraestrutura PostgreSQL, Qwen torna open-source seu modelo text-to-speech, e Runway adiciona Image to Video ao Gen-4.5.

Anthropic: Claude no Excel e Claude Code

Claude no Excel

23 de janeiro — Claude agora está disponível no Microsoft Excel em beta. A integração permite analisar pastas de trabalho completas do Excel com suas fórmulas aninhadas e dependências entre abas.

Funcionalidades:

Compreensão da pasta de trabalho inteira (fórmulas, dependências multi-abas)
Explicações com citações em nível de célula
Atualização de suposições preservando as fórmulas

Disponível para assinantes Claude Pro, Max, Team e Enterprise.

🔗 Claude no Excel

Claude Code v2.1.19: sistema Tasks

23 de janeiro — A versão 2.1.19 apresenta Tasks, um novo sistema de gerenciamento de tarefas para projetos complexos multisessão.

We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.

🇵🇹 Estamos transformando Todos em Tasks no Claude Code. Tasks são uma nova primitiva que ajuda o Claude Code a rastrear e completar projetos mais complicados e colaborar neles através de múltiplas sessões ou subagentes. — Thariq (@trq212), equipe Claude Code Anthropic

Funcionalidades Tasks:

Aspecto	Detalhe
Armazenamento	`~/.claude/tasks` (arquivos, permite construir ferramentas em cima)
Colaboração	`CLAUDE_CODE_TASK_LIST_ID=nome claude` para compartilhar entre sessões
Dependências	Tasks com dependências e bloqueios armazenados nos metadados
Transmissão	Atualização de uma Task transmitida para todas as sessões na mesma Task List
Compatibilidade	Funciona com `claude -p` e AgentSDK

Para que serve: Em um projeto complexo (refatoração multiarquivo, migração, funcionalidade longa), Claude pode dividir o trabalho em tasks, rastrear o que está feito e o que resta. As tasks são persistidas em disco — sobrevivem à compactação do contexto, fechamento da sessão e reinicialização. Múltiplas sessões ou subagentes podem colaborar na mesma lista de tarefas em tempo real.

Na prática: Claude cria tasks (TaskCreate), lista-as (TaskList), e atualiza seu status (TaskUpdate: pending → in_progress → completed). Exemplo em uma refatoração de autenticação:

#1 [completed] Migrar armazenamento de sessão para Redis
#2 [in_progress] Implementar rotação de refresh token
#3 [pending] Adicionar testes de integração OAuth
#4 [pending] Atualizar documentação da API

As tasks são armazenadas em ~/.claude/tasks/ e podem ser compartilhadas entre sessões via CLAUDE_CODE_TASK_LIST_ID.

Outras novidades v2.1.19:

Abreviação $0, $1 para argumentos em comandos personalizados
VSCode session forking e rebobinar para todos
Skills sem permissões são executadas sem aprovação
CLAUDE_CODE_ENABLE_TASKS=false para desativar temporariamente

🔗 CHANGELOG Claude Code | Thread @trq212

Claude Code v2.1.18: atalhos de teclado personalizáveis

Versão anterior adicionando a capacidade de configurar atalhos de teclado por contexto e criar sequências chord.

Comando: /keybindings

⚠️ Nota: Esta funcionalidade está atualmente em preview e não está disponível para todos os usuários.

🔗 Documentação Keybindings

Petri 2.0: auditorias de alinhamento automatizadas

22 de janeiro — Anthropic publica Petri 2.0, uma atualização de sua ferramenta de auditoria comportamental automatizada para modelos de linguagem.

Para que serve: Petri testa se um LLM poderia se comportar de maneira problemática — manipulação, engano, contorno de regras. A ferramenta gera cenários realistas e observa as respostas do modelo para detectar comportamentos indesejados antes que ocorram em produção.

Melhoria	Descrição
70 novos cenários	Biblioteca de seeds estendida para cobrir mais casos extremos
Mitigações eval-awareness	O modelo não deve saber que está sendo testado — caso contrário, adapta seu comportamento. Petri 2.0 melhora o realismo dos cenários para evitar essa detecção.
Comparações frontier	Resultados de avaliação para modelos recentes (Claude, GPT, Gemini)

🔗 Petri 2.0 | GitHub

Blog: quando usar (ou não) sistemas multiagente

23 de janeiro — Anthropic publica um guia pragmático sobre arquiteturas multiagente. A mensagem principal: não use multiagente por padrão.

We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.

🇵🇹 Vimos equipes investirem meses construindo arquiteturas multiagente elaboradas apenas para descobrir que um prompting melhorado em um único agente alcançava resultados equivalentes.

O artigo identifica 3 casos onde multiagente realmente traz valor:

Caso	Problema	Solução multiagente
Poluição de contexto	Um agente gera dados volumosos dos quais apenas um resumo é útil depois	Um subagente recupera 2000 tokens de histórico, retorna apenas “pedido entregue” ao agente principal
Paralelização	Múltiplas pesquisas independentes para fazer	Lançar 5 agentes em paralelo em 5 fontes diferentes em vez de processá-los sequencialmente
Especialização	Muitas ferramentas (20+) em um único agente degradam sua capacidade de escolher a certa	Separar em agentes especializados: um para CRM, um para marketing, um para mensagens

A armadilha a evitar: Dividir por tipo de trabalho (um agente planeja, outro implementa, outro testa). Cada passagem perde contexto e degrada a qualidade. É melhor que um único agente lide com uma funcionalidade de ponta a ponta.

Custo real: 3-10x mais tokens que um agente único para a mesma tarefa.

Outros artigos da série:

Building agents with Skills (22 jan)

Em vez de construir agentes especializados por domínio, Anthropic propõe construir skills: coleções de arquivos (fluxos de trabalho, scripts, melhores práticas) que um agente generalista carrega sob demanda.

Divulgação progressiva em 3 níveis:

Nível	Conteúdo	Tamanho
1	Metadados (nome, descrição)	~50 tokens
2	Arquivo SKILL.md completo	~500 tokens
3	Documentação de referência	2000+ tokens

Cada nível é carregado apenas se necessário. Resultado: um agente pode ter centenas de skills sem saturar seu contexto.

🔗 Building agents with Skills

Eight trends 2026 (21 jan)

Anthropic identifica 8 tendências para o desenvolvimento de software em 2026.

Mensagem chave: Engenheiros estão passando de escrever código para coordenar agentes que escrevem código.

Nuance importante: A IA é usada em ~60% do trabalho, mas apenas 0-20% pode ser totalmente delegada — a supervisão humana permanece essencial.

Empresa	Resultado
Rakuten	Claude Code na base de código vLLM (12.5M linhas), 7h de trabalho autônomo
TELUS	30% mais rápido, 500k horas economizadas
Zapier	89% adoção IA, 800+ agentes internos

🔗 Eight trends 2026

OpenAI: arquitetura Codex e infraestrutura

Unrolling the Codex agent loop

23 de janeiro — OpenAI abre os bastidores do Codex CLI. Primeiro artigo de uma série sobre o funcionamento interno de seu agente de software.

O que aprendemos:

O loop do agente é simples na teoria: o usuário envia uma solicitação → o modelo gera uma resposta ou solicita uma ferramenta → o agente executa a ferramenta → o modelo retoma com o resultado → até uma resposta final. Na prática, as sutilezas estão no gerenciamento de contexto.

Prompt caching — a chave para o desempenho:

Cada turno de conversa adiciona conteúdo ao prompt. Sem otimização, é quadrático em tokens enviados. O prompt caching permite reutilizar cálculos de turnos anteriores. Condição: o novo prompt deve ser um prefixo exato do antigo. OpenAI detalha as armadilhas que quebram o cache (mudar a ordem das ferramentas MCP, modificar a configuração no meio da conversa).

Compactação automática:

Quando o contexto excede um limite, Codex chama /responses/compact que retorna uma versão comprimida da conversa. O modelo mantém uma compreensão latente via um encrypted_content opaco.

Zero Data Retention (ZDR):

Para clientes que não querem que seus dados sejam armazenados, o encrypted_content permite preservar o raciocínio do modelo entre turnos sem armazenar dados do lado do servidor.

Primeiro artigo de uma série — os próximos cobrirão a arquitetura CLI, implementação de ferramentas e sandboxing.

🔗 Unrolling the Codex agent loop | Codex GitHub

Scaling PostgreSQL: 800 milhões de usuários do ChatGPT

22 de janeiro — OpenAI detalha como o PostgreSQL alimenta o ChatGPT e a API para 800 milhões de usuários com milhões de solicitações por segundo.

Métrica	Valor
Usuários	800 milhões
Throughput	Milhões de QPS
Réplicas	~50 read replicas multirregião
Latência p99	Dois dígitos ms lado cliente
Disponibilidade	Five-nines (99.999%)

Arquitetura:

Single primary Azure PostgreSQL flexible server
PgBouncer para connection pooling (latência conexão: 50ms → 5ms)
Cargas de trabalho write-heavy migradas para Azure Cosmos DB
Cache locking para proteger contra tempestades de cache miss
Replicação em cascata em teste para exceder 100 réplicas

Único SEV-0 PostgreSQL nos últimos 12 meses: durante o lançamento viral do ChatGPT ImageGen (100M novos usuários em uma semana, tráfego de escrita x10).

🔗 Scaling PostgreSQL

Qwen: Qwen3-TTS open-source

22-23 de janeiro — Alibaba lança Qwen3-TTS em código aberto sob licença Apache 2.0.

Característica	Detalhe
Licença	Apache 2.0
Voice cloning	Sim
Suporte MLX-Audio	Disponível

Instalação:

uv pip install -U mlx-audio --prerelease=allow

🔗 Qwen3-TTS no X

Runway: Gen-4.5 Image to Video

21 de janeiro — Runway adiciona a funcionalidade Image to Video ao Gen-4.5.

Funcionalidade	Descrição
Image to Video	Transformação de uma imagem em vídeo cinematográfico
Camera control	Controle preciso da câmera
Coherent narratives	Narrativas coerentes ao longo do tempo
Character consistency	Personagens que permanecem consistentes

Disponível para todos os planos pagos do Runway. Promoção temporária: 15% de desconto.

🔗 Runway no X

O que isso significa

Esta semana marca um amadurecimento das ferramentas de coding agents. Os dois gigantes (Anthropic e OpenAI) publicam documentações técnicas detalhadas sobre a arquitetura de seus agentes — sinal de que o mercado está passando da fase “demo” para a fase “produção”.

Do lado da infraestrutura, o artigo PostgreSQL da OpenAI mostra que uma arquitetura single-primary pode aguentar a escala de centenas de milhões de usuários com as otimizações certas.

A chegada do Claude no Excel abre uma nova frente: a IA integrada diretamente nas ferramentas de produtividade cotidianas.