Semana movimentada para agentes de IA
De 21 a 23 de janeiro de 2026, vários anúncios importantes sobre coding agents e infraestrutura. Anthropic lança Claude no Excel e publica três artigos sobre sistemas multiagente, OpenAI detalha a arquitetura interna do Codex e sua infraestrutura PostgreSQL, Qwen torna open-source seu modelo text-to-speech, e Runway adiciona Image to Video ao Gen-4.5.
Anthropic: Claude no Excel e Claude Code
Claude no Excel
23 de janeiro — Claude agora está disponível no Microsoft Excel em beta. A integração permite analisar pastas de trabalho completas do Excel com suas fórmulas aninhadas e dependências entre abas.
Funcionalidades:
- Compreensão da pasta de trabalho inteira (fórmulas, dependências multi-abas)
- Explicações com citações em nível de célula
- Atualização de suposições preservando as fórmulas
Disponível para assinantes Claude Pro, Max, Team e Enterprise.
Claude Code v2.1.19: sistema Tasks
23 de janeiro — A versão 2.1.19 apresenta Tasks, um novo sistema de gerenciamento de tarefas para projetos complexos multisessão.
We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.
🇵🇹 Estamos transformando Todos em Tasks no Claude Code. Tasks são uma nova primitiva que ajuda o Claude Code a rastrear e completar projetos mais complicados e colaborar neles através de múltiplas sessões ou subagentes. — Thariq (@trq212), equipe Claude Code Anthropic
Funcionalidades Tasks:
| Aspecto | Detalhe |
|---|---|
| Armazenamento | ~/.claude/tasks (arquivos, permite construir ferramentas em cima) |
| Colaboração | CLAUDE_CODE_TASK_LIST_ID=nome claude para compartilhar entre sessões |
| Dependências | Tasks com dependências e bloqueios armazenados nos metadados |
| Transmissão | Atualização de uma Task transmitida para todas as sessões na mesma Task List |
| Compatibilidade | Funciona com claude -p e AgentSDK |
Para que serve: Em um projeto complexo (refatoração multiarquivo, migração, funcionalidade longa), Claude pode dividir o trabalho em tasks, rastrear o que está feito e o que resta. As tasks são persistidas em disco — sobrevivem à compactação do contexto, fechamento da sessão e reinicialização. Múltiplas sessões ou subagentes podem colaborar na mesma lista de tarefas em tempo real.
Na prática: Claude cria tasks (TaskCreate), lista-as (TaskList), e atualiza seu status (TaskUpdate: pending → in_progress → completed). Exemplo em uma refatoração de autenticação:
#1 [completed] Migrar armazenamento de sessão para Redis
#2 [in_progress] Implementar rotação de refresh token
#3 [pending] Adicionar testes de integração OAuth
#4 [pending] Atualizar documentação da API
As tasks são armazenadas em ~/.claude/tasks/ e podem ser compartilhadas entre sessões via CLAUDE_CODE_TASK_LIST_ID.
Outras novidades v2.1.19:
- Abreviação
$0,$1para argumentos em comandos personalizados - VSCode session forking e rebobinar para todos
- Skills sem permissões são executadas sem aprovação
CLAUDE_CODE_ENABLE_TASKS=falsepara desativar temporariamente
🔗 CHANGELOG Claude Code | Thread @trq212
Claude Code v2.1.18: atalhos de teclado personalizáveis
Versão anterior adicionando a capacidade de configurar atalhos de teclado por contexto e criar sequências chord.
Comando: /keybindings
⚠️ Nota: Esta funcionalidade está atualmente em preview e não está disponível para todos os usuários.
Petri 2.0: auditorias de alinhamento automatizadas
22 de janeiro — Anthropic publica Petri 2.0, uma atualização de sua ferramenta de auditoria comportamental automatizada para modelos de linguagem.
Para que serve: Petri testa se um LLM poderia se comportar de maneira problemática — manipulação, engano, contorno de regras. A ferramenta gera cenários realistas e observa as respostas do modelo para detectar comportamentos indesejados antes que ocorram em produção.
| Melhoria | Descrição |
|---|---|
| 70 novos cenários | Biblioteca de seeds estendida para cobrir mais casos extremos |
| Mitigações eval-awareness | O modelo não deve saber que está sendo testado — caso contrário, adapta seu comportamento. Petri 2.0 melhora o realismo dos cenários para evitar essa detecção. |
| Comparações frontier | Resultados de avaliação para modelos recentes (Claude, GPT, Gemini) |
Blog: quando usar (ou não) sistemas multiagente
23 de janeiro — Anthropic publica um guia pragmático sobre arquiteturas multiagente. A mensagem principal: não use multiagente por padrão.
We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.
🇵🇹 Vimos equipes investirem meses construindo arquiteturas multiagente elaboradas apenas para descobrir que um prompting melhorado em um único agente alcançava resultados equivalentes.
O artigo identifica 3 casos onde multiagente realmente traz valor:
| Caso | Problema | Solução multiagente |
|---|---|---|
| Poluição de contexto | Um agente gera dados volumosos dos quais apenas um resumo é útil depois | Um subagente recupera 2000 tokens de histórico, retorna apenas “pedido entregue” ao agente principal |
| Paralelização | Múltiplas pesquisas independentes para fazer | Lançar 5 agentes em paralelo em 5 fontes diferentes em vez de processá-los sequencialmente |
| Especialização | Muitas ferramentas (20+) em um único agente degradam sua capacidade de escolher a certa | Separar em agentes especializados: um para CRM, um para marketing, um para mensagens |
A armadilha a evitar: Dividir por tipo de trabalho (um agente planeja, outro implementa, outro testa). Cada passagem perde contexto e degrada a qualidade. É melhor que um único agente lide com uma funcionalidade de ponta a ponta.
Custo real: 3-10x mais tokens que um agente único para a mesma tarefa.
Outros artigos da série:
Building agents with Skills (22 jan)
Em vez de construir agentes especializados por domínio, Anthropic propõe construir skills: coleções de arquivos (fluxos de trabalho, scripts, melhores práticas) que um agente generalista carrega sob demanda.
Divulgação progressiva em 3 níveis:
| Nível | Conteúdo | Tamanho |
|---|---|---|
| 1 | Metadados (nome, descrição) | ~50 tokens |
| 2 | Arquivo SKILL.md completo | ~500 tokens |
| 3 | Documentação de referência | 2000+ tokens |
Cada nível é carregado apenas se necessário. Resultado: um agente pode ter centenas de skills sem saturar seu contexto.
Eight trends 2026 (21 jan)
Anthropic identifica 8 tendências para o desenvolvimento de software em 2026.
Mensagem chave: Engenheiros estão passando de escrever código para coordenar agentes que escrevem código.
Nuance importante: A IA é usada em ~60% do trabalho, mas apenas 0-20% pode ser totalmente delegada — a supervisão humana permanece essencial.
| Empresa | Resultado |
|---|---|
| Rakuten | Claude Code na base de código vLLM (12.5M linhas), 7h de trabalho autônomo |
| TELUS | 30% mais rápido, 500k horas economizadas |
| Zapier | 89% adoção IA, 800+ agentes internos |
OpenAI: arquitetura Codex e infraestrutura
Unrolling the Codex agent loop
23 de janeiro — OpenAI abre os bastidores do Codex CLI. Primeiro artigo de uma série sobre o funcionamento interno de seu agente de software.
O que aprendemos:
O loop do agente é simples na teoria: o usuário envia uma solicitação → o modelo gera uma resposta ou solicita uma ferramenta → o agente executa a ferramenta → o modelo retoma com o resultado → até uma resposta final. Na prática, as sutilezas estão no gerenciamento de contexto.
Prompt caching — a chave para o desempenho:
Cada turno de conversa adiciona conteúdo ao prompt. Sem otimização, é quadrático em tokens enviados. O prompt caching permite reutilizar cálculos de turnos anteriores. Condição: o novo prompt deve ser um prefixo exato do antigo. OpenAI detalha as armadilhas que quebram o cache (mudar a ordem das ferramentas MCP, modificar a configuração no meio da conversa).
Compactação automática:
Quando o contexto excede um limite, Codex chama /responses/compact que retorna uma versão comprimida da conversa. O modelo mantém uma compreensão latente via um encrypted_content opaco.
Zero Data Retention (ZDR):
Para clientes que não querem que seus dados sejam armazenados, o encrypted_content permite preservar o raciocínio do modelo entre turnos sem armazenar dados do lado do servidor.
Primeiro artigo de uma série — os próximos cobrirão a arquitetura CLI, implementação de ferramentas e sandboxing.
🔗 Unrolling the Codex agent loop | Codex GitHub
Scaling PostgreSQL: 800 milhões de usuários do ChatGPT
22 de janeiro — OpenAI detalha como o PostgreSQL alimenta o ChatGPT e a API para 800 milhões de usuários com milhões de solicitações por segundo.
| Métrica | Valor |
|---|---|
| Usuários | 800 milhões |
| Throughput | Milhões de QPS |
| Réplicas | ~50 read replicas multirregião |
| Latência p99 | Dois dígitos ms lado cliente |
| Disponibilidade | Five-nines (99.999%) |
Arquitetura:
- Single primary Azure PostgreSQL flexible server
- PgBouncer para connection pooling (latência conexão: 50ms → 5ms)
- Cargas de trabalho write-heavy migradas para Azure Cosmos DB
- Cache locking para proteger contra tempestades de cache miss
- Replicação em cascata em teste para exceder 100 réplicas
Único SEV-0 PostgreSQL nos últimos 12 meses: durante o lançamento viral do ChatGPT ImageGen (100M novos usuários em uma semana, tráfego de escrita x10).
Qwen: Qwen3-TTS open-source
22-23 de janeiro — Alibaba lança Qwen3-TTS em código aberto sob licença Apache 2.0.
| Característica | Detalhe |
|---|---|
| Licença | Apache 2.0 |
| Voice cloning | Sim |
| Suporte MLX-Audio | Disponível |
Instalação:
uv pip install -U mlx-audio --prerelease=allow
Runway: Gen-4.5 Image to Video
21 de janeiro — Runway adiciona a funcionalidade Image to Video ao Gen-4.5.
| Funcionalidade | Descrição |
|---|---|
| Image to Video | Transformação de uma imagem em vídeo cinematográfico |
| Camera control | Controle preciso da câmera |
| Coherent narratives | Narrativas coerentes ao longo do tempo |
| Character consistency | Personagens que permanecem consistentes |
Disponível para todos os planos pagos do Runway. Promoção temporária: 15% de desconto.
O que isso significa
Esta semana marca um amadurecimento das ferramentas de coding agents. Os dois gigantes (Anthropic e OpenAI) publicam documentações técnicas detalhadas sobre a arquitetura de seus agentes — sinal de que o mercado está passando da fase “demo” para a fase “produção”.
Do lado da infraestrutura, o artigo PostgreSQL da OpenAI mostra que uma arquitetura single-primary pode aguentar a escala de centenas de milhões de usuários com as otimizações certas.
A chegada do Claude no Excel abre uma nova frente: a IA integrada diretamente nas ferramentas de produtividade cotidianas.