GLM-5 open-source, Relatório de Risco de Sabotagem ASL-4, OpenAI lança primitivas agênticas

A Z.ai lança o GLM-5, o seu novo modelo emblemático open-source com 744 mil milhões de parâmetros sob licença MIT, que ascende ao primeiro lugar dos modelos open-source em codificação e tarefas agênticas. A Anthropic publica um relatório de riscos de sabotagem ASL-4 para o Opus 4.6, a OpenAI enriquece a sua API com primitivas agênticas, e a Kimi revela um sistema de 100 subagentes paralelos. Do lado do ecossistema, a Runway angaria 315 milhões de dólares e a ElevenLabs lança um modo expressivo para os seus agentes de voz.

Z.ai lança GLM-5: 744B parâmetros, open-source sob licença MIT

11 de fevereiro — A Z.ai (Zhipu AI) lança o GLM-5, o seu novo modelo de fronteira concebido para a engenharia de sistemas complexos e tarefas agênticas de longa duração. Em comparação com o GLM-4.5, o modelo passa de 355B parâmetros (32B ativos) para 744B parâmetros (40B ativos), com dados de pré-treino que aumentam de 23T para 28,5T tokens.

O GLM-5 integra DeepSeek Sparse Attention (DSA) para reduzir os custos de implementação preservando a capacidade de contexto longo, e introduz “slime”, uma infraestrutura de aprendizagem por reforço assíncrona que melhora o rendimento pós-treino.

Benchmark	GLM-5	GLM-4.7	Kimi K2.5	Claude Opus 4.5	Gemini 3 Pro
SWE-bench Verified	77,8%	73,8%	76,8%	80,9%	76,2%
HLE (text)	30,5	24,8	31,5	28,4	37,2
HLE w/ Tools	50,4	42,8	51,8	43,4	45,8
Terminal-Bench 2.0	56,2	41,0	50,8	59,3	54,2
Vending Bench 2	$4 432	$2 377	$1 198	$4 967	$5 478

O GLM-5 posiciona-se como o melhor modelo open-source em raciocínio, codificação e tarefas agênticas, fechando a lacuna com os modelos de fronteira proprietários. No Vending Bench 2, um benchmark que simula a gestão de uma máquina de venda automática durante um ano, o GLM-5 termina com um saldo de $4 432, aproximando-se do Claude Opus 4.5 ($ 4 967).

Para além do código, o GLM-5 pode gerar diretamente ficheiros .docx, .pdf e .xlsx — propostas, relatórios financeiros, folhas de cálculo — entregues chave na mão. A Z.ai implementa um modo Agente com competências integradas para a criação de documentos, suportando a colaboração em vários turnos.

Os pesos do modelo são publicados no Hugging Face sob licença MIT. O GLM-5 é compatível com Claude Code e OpenClaw, e está disponível no OpenRouter. A implementação é progressiva, começando pelos subscritores do Coding Plan Max.

🔗 Blog técnico GLM-5 🔗 Anúncio no X

Anthropic publica o primeiro relatório de riscos de sabotagem ASL-4

11 de fevereiro — A Anthropic publica um relatório de riscos de sabotagem para o Claude Opus 4.6, em antecipação do limiar de segurança ASL-4 (AI Safety Level 4) para a I&D autónoma em IA.

Aquando do lançamento do Claude Opus 4.5, a Anthropic comprometeu-se a redigir relatórios de riscos de sabotagem para cada novo modelo de fronteira. Em vez de navegar em limiares vagos, a empresa escolheu respeitar proativamente o padrão de segurança ASL-4 mais elevado.

Elemento	Detalhe
Modelo avaliado	Claude Opus 4.6
Limiar de segurança	ASL-4 (AI Safety Level 4)
Domínio	I&D autónoma em IA
Formato	Relatório PDF público
Precedente	Compromisso assumido durante o lançamento do Opus 4.5

Este é um passo significativo na transparência da segurança da IA: a Anthropic é um dos primeiros laboratórios a publicar tal relatório de sabotagem para um modelo em produção.

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.

🇵🇹 Quando lançámos o Claude Opus 4.5, sabíamos que os futuros modelos estariam próximos do nosso limiar AI Safety Level 4 para a I&D autónoma em IA. Por conseguinte, comprometemo-nos a escrever relatórios de riscos de sabotagem para futuros modelos de fronteira. Hoje cumprimos esse compromisso para o Claude Opus 4.6. — @AnthropicAI no X

🔗 Thread Anthropic

OpenAI: novas primitivas agênticas na API Responses

10 de fevereiro — A OpenAI introduz três novas primitivas na API Responses para o trabalho agêntico de longa duração.

Compactação do lado do servidor

Permite sessões de agentes de várias horas sem atingir os limites de contexto. A compactação é gerida do lado do servidor. Triple Whale, um testador em acesso antecipado, relata ter realizado 150 chamadas de ferramentas e 5 milhões de tokens numa única sessão sem perda de precisão.

Contentores com redes

Os contentores alojados pela OpenAI podem agora aceder à internet de forma controlada. Os administradores definem uma lista branca de domínios no painel, os pedidos devem definir explicitamente uma network_policy, e os segredos de domínio podem ser injetados sem expor os valores brutos ao modelo.

Competências na API

Suporte nativo do padrão Agent Skills com uma primeira competência pré-construída (folhas de cálculo). As competências são pacotes reutilizáveis e versionados que podem ser montados nos ambientes shell alojados, e os modelos decidem em tempo de execução se os devem invocar.

Primitiva	Descrição	Estado
Compactação do lado do servidor	Sessões de várias horas sem limites de contexto	Disponível
Contentores com redes	Acesso internet controlado para contentores alojados	Disponível
Competências na API	Pacotes reutilizáveis (primeira competência: folhas de cálculo)	Disponível

🔗 Thread OpenAIDevs

Kimi Agent Swarm: orquestração de 100 subagentes

10 de fevereiro — A Kimi (Moonshot AI) revela o Agent Swarm, uma capacidade de coordenação multiagente que permite paralelizar tarefas complexas com até 100 subagentes especializados.

O sistema pode executar mais de 1 500 chamadas de ferramentas e atinge uma velocidade 4,5x superior às execuções sequenciais. Os casos de uso cobrem a geração simultânea de múltiplos ficheiros (Word, Excel, PDF), a análise paralela de conteúdos e a geração criativa em vários estilos em paralelo. O Agent Swarm resolve um limite estrutural dos LLMs: a degradação do raciocínio durante tarefas longas que enchem o contexto.

🔗 Anúncio Kimi

OpenAI Harness Engineering: zero linhas de código manual com Codex

11 de fevereiro — A OpenAI publica uma experiência sobre a construção de um produto de software interno com zero linhas de código escritas manualmente. Durante 5 meses, uma equipa de 3 a 7 engenheiros utilizou exclusivamente o Codex para gerar todo o código.

Métrica	Valor
Linhas de código geradas	~1 milhão
Pull requests	~1 500
PRs por engenheiro por dia	3,5 em média
Utilizadores internos	Várias centenas
Tempo estimado	1/10 do tempo necessário à mão
Sessões Codex	Até 6+ horas

A abordagem “Harness Engineering” redefine o papel do engenheiro: conceber ambientes, especificar a intenção e construir ciclos de feedback para os agentes, em vez de escrever código. A documentação estruturada no repositório serve de guia (AGENTS.md como índice), a arquitetura é rígida com linters e testes estruturais gerados pelo Codex, e tarefas recorrentes analisam desvios e abrem PRs de refatorização automaticamente.

🔗 Blog Harness Engineering

Runway angaria 315 milhões de dólares na Série E

10 de fevereiro — A Runway anuncia uma angariação de fundos de 315 milhões de dólares na Série E, elevando a sua avaliação para 5,3 mil milhões de dólares. A ronda é liderada pela General Atlantic, com a participação da NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein e outros.

Detalhe	Valor
Montante	315 M$
Série	E
Avaliação	5,3 mM $(vs 3,3 mM$ na Série D)
Investidor principal	General Atlantic
Total angariado desde 2018	860 M$

Os fundos servirão para pré-treinar a próxima geração de “world models” — modelos capazes de simular o mundo físico — e implementá-los em novos produtos e indústrias. Este anúncio surge após o lançamento do Gen-4.5, o mais recente modelo de geração de vídeo da Runway.

🔗 Anúncio oficial 🔗 Post Runway no X

Cowork disponível no Windows

10 de fevereiro — O Claude Cowork, a aplicação desktop para tarefas de vários passos, está agora disponível no Windows em pré-visualização de investigação com paridade completa de funcionalidades em comparação com o macOS.

Funcionalidade	Descrição
Acesso a ficheiros	Leitura e escrita de ficheiros locais
Plugins	Suporte para plugins Cowork
Conectores MCP	Integração com servidores MCP
Instruções por pasta	Estilo Claude.md — instruções em linguagem natural por projeto

O Cowork no Windows está disponível para todos os planos Claude pagos através de claude.com/cowork.

🔗 Anúncio Cowork Windows

Funcionalidades gratuitas no plano gratuito Claude

11 de fevereiro — A Anthropic expande as funcionalidades acessíveis no plano gratuito do Claude. A criação de ficheiros, os conectores, as competências e a compactação estão agora disponíveis sem subscrição. A compactação permite ao Claude resumir automaticamente o contexto anterior para que as longas conversas possam continuar sem reiniciar.

🔗 Anúncio plano gratuito

Claude Code Plan Mode no Slack

11 de fevereiro — A integração Claude Code no Slack recebe o Plan Mode. Quando se dá ao Claude uma tarefa de código no Slack, ele pode agora elaborar um plano antes de executar, permitindo validar a abordagem antes da implementação.

Funcionalidade	Descrição
Plan Mode	Elaboração de um plano antes da execução
Deteção automática	Encaminhamento inteligente entre código e chat
Criação de PR	Botão “Create PR” diretamente a partir do Slack
Pré-requisitos	Plano Pro, Max, Team ou Enterprise + GitHub ligado

🔗 Thread Boris Cherny

ElevenLabs lança o modo Expressivo para os seus agentes de voz

10 de fevereiro — A ElevenLabs revela o Expressive Mode para ElevenAgents, uma evolução que torna os seus agentes de voz de IA capazes de adaptar o seu tom, emoção e ênfase em tempo real.

O modo baseia-se no Eleven v3 Conversational, um modelo de síntese de voz otimizado para o diálogo em tempo real, acoplado a um novo sistema de turnos que reduz as interrupções. O preço mantém-se em 0,08 $ por minuto. Paralelamente, a ElevenLabs reestrutura a sua plataforma em três famílias de produtos: ElevenAgents (agentes de voz), ElevenCreative (ferramentas criativas) e ElevenAPI (plataforma para programadores).

🔗 Blog Expressive Mode

Kimi K2.5 integrado no Qoder

9 de fevereiro — A Qoder (plataforma de IA para programadores) implementa o Kimi K2.5 como modelo emblemático do seu marketplace, com uma pontuação SWE-bench Verified de 76,8% e uma tarifa vantajosa (0,3x crédito no nível Efficient). O fluxo de trabalho recomendado: usar os modelos pesados para o design e arquitetura, depois o K2.5 para a implementação.

🔗 Anúncio Qoder

O que isto significa

O open-source continua a progredir rapidamente em direção aos modelos de fronteira. O GLM-5 da Z.ai reduz a lacuna com o Claude Opus 4.5 e o GPT-5.2 nos benchmarks de codificação e tarefas agénticas, estando disponível sob licença MIT. A publicação do relatório de sabotagem ASL-4 pela Anthropic estabelece um precedente em matéria de transparência de segurança que outros laboratórios serão provavelmente levados a seguir.

Do lado dos programadores, as primitivas agénticas da OpenAI (compactação do servidor, contentores de rede, competências na API) e a abordagem “Harness Engineering” desenham um futuro onde os agentes autónomos gerem sessões de várias horas. O Kimi Agent Swarm leva esta lógica ainda mais longe com a orquestração de centenas de subagentes em paralelo.