Pesquisar

GLM-5 open-source, Relatório de Risco de Sabotagem ASL-4, OpenAI lança primitivas agênticas

GLM-5 open-source, Relatório de Risco de Sabotagem ASL-4, OpenAI lança primitivas agênticas

A Z.ai lança o GLM-5, o seu novo modelo emblemático open-source com 744 mil milhões de parâmetros sob licença MIT, que ascende ao primeiro lugar dos modelos open-source em codificação e tarefas agênticas. A Anthropic publica um relatório de riscos de sabotagem ASL-4 para o Opus 4.6, a OpenAI enriquece a sua API com primitivas agênticas, e a Kimi revela um sistema de 100 subagentes paralelos. Do lado do ecossistema, a Runway angaria 315 milhões de dólares e a ElevenLabs lança um modo expressivo para os seus agentes de voz.


Z.ai lança GLM-5: 744B parâmetros, open-source sob licença MIT

11 de fevereiro — A Z.ai (Zhipu AI) lança o GLM-5, o seu novo modelo de fronteira concebido para a engenharia de sistemas complexos e tarefas agênticas de longa duração. Em comparação com o GLM-4.5, o modelo passa de 355B parâmetros (32B ativos) para 744B parâmetros (40B ativos), com dados de pré-treino que aumentam de 23T para 28,5T tokens.

O GLM-5 integra DeepSeek Sparse Attention (DSA) para reduzir os custos de implementação preservando a capacidade de contexto longo, e introduz “slime”, uma infraestrutura de aprendizagem por reforço assíncrona que melhora o rendimento pós-treino.

BenchmarkGLM-5GLM-4.7Kimi K2.5Claude Opus 4.5Gemini 3 Pro
SWE-bench Verified77,8%73,8%76,8%80,9%76,2%
HLE (text)30,524,831,528,437,2
HLE w/ Tools50,442,851,843,445,8
Terminal-Bench 2.056,241,050,859,354,2
Vending Bench 2$4 432$2 377$1 198$4 967$5 478

O GLM-5 posiciona-se como o melhor modelo open-source em raciocínio, codificação e tarefas agênticas, fechando a lacuna com os modelos de fronteira proprietários. No Vending Bench 2, um benchmark que simula a gestão de uma máquina de venda automática durante um ano, o GLM-5 termina com um saldo de 4432,aproximandosedoClaudeOpus4.5(4 432, aproximando-se do Claude Opus 4.5 (4 967).

Para além do código, o GLM-5 pode gerar diretamente ficheiros .docx, .pdf e .xlsx — propostas, relatórios financeiros, folhas de cálculo — entregues chave na mão. A Z.ai implementa um modo Agente com competências integradas para a criação de documentos, suportando a colaboração em vários turnos.

Os pesos do modelo são publicados no Hugging Face sob licença MIT. O GLM-5 é compatível com Claude Code e OpenClaw, e está disponível no OpenRouter. A implementação é progressiva, começando pelos subscritores do Coding Plan Max.

🔗 Blog técnico GLM-5 🔗 Anúncio no X


Anthropic publica o primeiro relatório de riscos de sabotagem ASL-4

11 de fevereiro — A Anthropic publica um relatório de riscos de sabotagem para o Claude Opus 4.6, em antecipação do limiar de segurança ASL-4 (AI Safety Level 4) para a I&D autónoma em IA.

Aquando do lançamento do Claude Opus 4.5, a Anthropic comprometeu-se a redigir relatórios de riscos de sabotagem para cada novo modelo de fronteira. Em vez de navegar em limiares vagos, a empresa escolheu respeitar proativamente o padrão de segurança ASL-4 mais elevado.

ElementoDetalhe
Modelo avaliadoClaude Opus 4.6
Limiar de segurançaASL-4 (AI Safety Level 4)
DomínioI&D autónoma em IA
FormatoRelatório PDF público
PrecedenteCompromisso assumido durante o lançamento do Opus 4.5

Este é um passo significativo na transparência da segurança da IA: a Anthropic é um dos primeiros laboratórios a publicar tal relatório de sabotagem para um modelo em produção.

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.

🇵🇹 Quando lançámos o Claude Opus 4.5, sabíamos que os futuros modelos estariam próximos do nosso limiar AI Safety Level 4 para a I&D autónoma em IA. Por conseguinte, comprometemo-nos a escrever relatórios de riscos de sabotagem para futuros modelos de fronteira. Hoje cumprimos esse compromisso para o Claude Opus 4.6.@AnthropicAI no X

🔗 Thread Anthropic


OpenAI: novas primitivas agênticas na API Responses

10 de fevereiro — A OpenAI introduz três novas primitivas na API Responses para o trabalho agêntico de longa duração.

Compactação do lado do servidor

Permite sessões de agentes de várias horas sem atingir os limites de contexto. A compactação é gerida do lado do servidor. Triple Whale, um testador em acesso antecipado, relata ter realizado 150 chamadas de ferramentas e 5 milhões de tokens numa única sessão sem perda de precisão.

Contentores com redes

Os contentores alojados pela OpenAI podem agora aceder à internet de forma controlada. Os administradores definem uma lista branca de domínios no painel, os pedidos devem definir explicitamente uma network_policy, e os segredos de domínio podem ser injetados sem expor os valores brutos ao modelo.

Competências na API

Suporte nativo do padrão Agent Skills com uma primeira competência pré-construída (folhas de cálculo). As competências são pacotes reutilizáveis e versionados que podem ser montados nos ambientes shell alojados, e os modelos decidem em tempo de execução se os devem invocar.

PrimitivaDescriçãoEstado
Compactação do lado do servidorSessões de várias horas sem limites de contextoDisponível
Contentores com redesAcesso internet controlado para contentores alojadosDisponível
Competências na APIPacotes reutilizáveis (primeira competência: folhas de cálculo)Disponível

🔗 Thread OpenAIDevs


Kimi Agent Swarm: orquestração de 100 subagentes

10 de fevereiro — A Kimi (Moonshot AI) revela o Agent Swarm, uma capacidade de coordenação multiagente que permite paralelizar tarefas complexas com até 100 subagentes especializados.

O sistema pode executar mais de 1 500 chamadas de ferramentas e atinge uma velocidade 4,5x superior às execuções sequenciais. Os casos de uso cobrem a geração simultânea de múltiplos ficheiros (Word, Excel, PDF), a análise paralela de conteúdos e a geração criativa em vários estilos em paralelo. O Agent Swarm resolve um limite estrutural dos LLMs: a degradação do raciocínio durante tarefas longas que enchem o contexto.

🔗 Anúncio Kimi


OpenAI Harness Engineering: zero linhas de código manual com Codex

11 de fevereiro — A OpenAI publica uma experiência sobre a construção de um produto de software interno com zero linhas de código escritas manualmente. Durante 5 meses, uma equipa de 3 a 7 engenheiros utilizou exclusivamente o Codex para gerar todo o código.

MétricaValor
Linhas de código geradas~1 milhão
Pull requests~1 500
PRs por engenheiro por dia3,5 em média
Utilizadores internosVárias centenas
Tempo estimado1/10 do tempo necessário à mão
Sessões CodexAté 6+ horas

A abordagem “Harness Engineering” redefine o papel do engenheiro: conceber ambientes, especificar a intenção e construir ciclos de feedback para os agentes, em vez de escrever código. A documentação estruturada no repositório serve de guia (AGENTS.md como índice), a arquitetura é rígida com linters e testes estruturais gerados pelo Codex, e tarefas recorrentes analisam desvios e abrem PRs de refatorização automaticamente.

🔗 Blog Harness Engineering


Runway angaria 315 milhões de dólares na Série E

10 de fevereiro — A Runway anuncia uma angariação de fundos de 315 milhões de dólares na Série E, elevando a sua avaliação para 5,3 mil milhões de dólares. A ronda é liderada pela General Atlantic, com a participação da NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein e outros.

DetalheValor
Montante315 M$
SérieE
Avaliação5,3 mM(vs3,3mM (vs 3,3 mM na Série D)
Investidor principalGeneral Atlantic
Total angariado desde 2018860 M$

Os fundos servirão para pré-treinar a próxima geração de “world models” — modelos capazes de simular o mundo físico — e implementá-los em novos produtos e indústrias. Este anúncio surge após o lançamento do Gen-4.5, o mais recente modelo de geração de vídeo da Runway.

🔗 Anúncio oficial 🔗 Post Runway no X


Cowork disponível no Windows

10 de fevereiro — O Claude Cowork, a aplicação desktop para tarefas de vários passos, está agora disponível no Windows em pré-visualização de investigação com paridade completa de funcionalidades em comparação com o macOS.

FuncionalidadeDescrição
Acesso a ficheirosLeitura e escrita de ficheiros locais
PluginsSuporte para plugins Cowork
Conectores MCPIntegração com servidores MCP
Instruções por pastaEstilo Claude.md — instruções em linguagem natural por projeto

O Cowork no Windows está disponível para todos os planos Claude pagos através de claude.com/cowork.

🔗 Anúncio Cowork Windows


Funcionalidades gratuitas no plano gratuito Claude

11 de fevereiro — A Anthropic expande as funcionalidades acessíveis no plano gratuito do Claude. A criação de ficheiros, os conectores, as competências e a compactação estão agora disponíveis sem subscrição. A compactação permite ao Claude resumir automaticamente o contexto anterior para que as longas conversas possam continuar sem reiniciar.

🔗 Anúncio plano gratuito


Claude Code Plan Mode no Slack

11 de fevereiro — A integração Claude Code no Slack recebe o Plan Mode. Quando se dá ao Claude uma tarefa de código no Slack, ele pode agora elaborar um plano antes de executar, permitindo validar a abordagem antes da implementação.

FuncionalidadeDescrição
Plan ModeElaboração de um plano antes da execução
Deteção automáticaEncaminhamento inteligente entre código e chat
Criação de PRBotão “Create PR” diretamente a partir do Slack
Pré-requisitosPlano Pro, Max, Team ou Enterprise + GitHub ligado

🔗 Thread Boris Cherny


ElevenLabs lança o modo Expressivo para os seus agentes de voz

10 de fevereiro — A ElevenLabs revela o Expressive Mode para ElevenAgents, uma evolução que torna os seus agentes de voz de IA capazes de adaptar o seu tom, emoção e ênfase em tempo real.

O modo baseia-se no Eleven v3 Conversational, um modelo de síntese de voz otimizado para o diálogo em tempo real, acoplado a um novo sistema de turnos que reduz as interrupções. O preço mantém-se em 0,08 $ por minuto. Paralelamente, a ElevenLabs reestrutura a sua plataforma em três famílias de produtos: ElevenAgents (agentes de voz), ElevenCreative (ferramentas criativas) e ElevenAPI (plataforma para programadores).

🔗 Blog Expressive Mode


Kimi K2.5 integrado no Qoder

9 de fevereiro — A Qoder (plataforma de IA para programadores) implementa o Kimi K2.5 como modelo emblemático do seu marketplace, com uma pontuação SWE-bench Verified de 76,8% e uma tarifa vantajosa (0,3x crédito no nível Efficient). O fluxo de trabalho recomendado: usar os modelos pesados para o design e arquitetura, depois o K2.5 para a implementação.

🔗 Anúncio Qoder


O que isto significa

O open-source continua a progredir rapidamente em direção aos modelos de fronteira. O GLM-5 da Z.ai reduz a lacuna com o Claude Opus 4.5 e o GPT-5.2 nos benchmarks de codificação e tarefas agénticas, estando disponível sob licença MIT. A publicação do relatório de sabotagem ASL-4 pela Anthropic estabelece um precedente em matéria de transparência de segurança que outros laboratórios serão provavelmente levados a seguir.

Do lado dos programadores, as primitivas agénticas da OpenAI (compactação do servidor, contentores de rede, competências na API) e a abordagem “Harness Engineering” desenham um futuro onde os agentes autónomos gerem sessões de várias horas. O Kimi Agent Swarm leva esta lógica ainda mais longe com a orquestração de centenas de subagentes em paralelo.


Fontes