Z.ai lanza GLM-5, su nuevo modelo insignia de código abierto con 744 mil millones de parámetros bajo licencia MIT, que se sitúa en el primer puesto de los modelos de código abierto en codificación y tareas agénticas. Anthropic publica un informe de riesgos de sabotaje ASL-4 para Opus 4.6, OpenAI enriquece su API con primitivas agénticas, y Kimi revela un sistema de 100 subagentes paralelos. Por el lado del ecosistema, Runway levanta 315 millones de dólares y ElevenLabs lanza un modo expresivo para sus agentes de voz.
Z.ai lanza GLM-5: 744B parámetros, código abierto bajo licencia MIT
11 de febrero — Z.ai (Zhipu AI) lanza GLM-5, su nuevo modelo de frontera diseñado para la ingeniería de sistemas complejos y tareas agénticas de larga duración. En comparación con GLM-4.5, el modelo pasa de 355B parámetros (32B activos) a 744B parámetros (40B activos), con datos de preentrenamiento que aumentan de 23T a 28,5T tokens.
GLM-5 integra DeepSeek Sparse Attention (DSA) para reducir los costes de despliegue preservando la capacidad de contexto largo, e introduce “slime”, una infraestructura de aprendizaje por refuerzo asíncrono que mejora el rendimiento post-entrenamiento.
| Benchmark | GLM-5 | GLM-4.7 | Kimi K2.5 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|---|
| SWE-bench Verified | 77,8% | 73,8% | 76,8% | 80,9% | 76,2% |
| HLE (text) | 30,5 | 24,8 | 31,5 | 28,4 | 37,2 |
| HLE w/ Tools | 50,4 | 42,8 | 51,8 | 43,4 | 45,8 |
| Terminal-Bench 2.0 | 56,2 | 41,0 | 50,8 | 59,3 | 54,2 |
| Vending Bench 2 | $4 432 | $2 377 | $1 198 | $4 967 | $5 478 |
GLM-5 se posiciona como el mejor modelo de código abierto en razonamiento, codificación y tareas agénticas, cerrando la brecha con los modelos de frontera propietarios. En Vending Bench 2, un benchmark que simula la gestión de una máquina expendedora durante un año, GLM-5 termina con un saldo de 4 967).
Más allá del código, GLM-5 puede generar directamente archivos .docx, .pdf y .xlsx — propuestas, informes financieros, hojas de cálculo — entregados llave en mano. Z.ai despliega un modo Agente con habilidades integradas para la creación de documentos, soportando la colaboración multiturno.
Los pesos del modelo se publican en Hugging Face bajo licencia MIT. GLM-5 es compatible con Claude Code y OpenClaw, y está disponible en OpenRouter. El despliegue es progresivo, comenzando por los suscriptores de Coding Plan Max.
🔗 Blog técnico GLM-5 🔗 Anuncio en X
Anthropic publica el primer informe de riesgos de sabotaje ASL-4
11 de febrero — Anthropic publica un informe de riesgos de sabotaje para Claude Opus 4.6, en anticipación del umbral de seguridad ASL-4 (AI Safety Level 4) para la I+D autónoma en IA.
Al lanzar Claude Opus 4.5, Anthropic se comprometió a redactar informes de riesgos de sabotaje para cada nuevo modelo de frontera. En lugar de navegar por umbrales vagos, la empresa eligió respetar proactivamente el estándar de seguridad ASL-4 más elevado.
| Elemento | Detalle |
|---|---|
| Modelo evaluado | Claude Opus 4.6 |
| Umbral de seguridad | ASL-4 (AI Safety Level 4) |
| Dominio | I+D autónoma en IA |
| Formato | Informe PDF público |
| Precedente | Compromiso asumido durante el lanzamiento de Opus 4.5 |
Es un paso significativo en la transparencia de la seguridad de la IA: Anthropic es uno de los primeros laboratorios en publicar tal informe de sabotaje para un modelo en producción.
When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.
🇪🇸 Cuando lanzamos Claude Opus 4.5, sabíamos que los futuros modelos estarían cerca de nuestro umbral AI Safety Level 4 para la I+D autónoma en IA. Por lo tanto, nos comprometimos a escribir informes de riesgo de sabotaje para futuros modelos de frontera. Hoy cumplimos ese compromiso para Claude Opus 4.6. — @AnthropicAI en X
OpenAI: nuevas primitivas agénticas en la API Responses
10 de febrero — OpenAI introduce tres nuevas primitivas en la API Responses para el trabajo agéntico de larga duración.
Compactación del lado del servidor
Permite sesiones de agentes de varias horas sin alcanzar los límites de contexto. La compactación se gestiona del lado del servidor. Triple Whale, probador en acceso anticipado, informa haber realizado 150 llamadas de herramientas y 5 millones de tokens en una sola sesión sin pérdida de precisión.
Contenedores con redes
Los contenedores alojados por OpenAI ahora pueden acceder a internet de manera controlada. Los administradores definen una lista blanca de dominios en el panel, las solicitudes deben definir explícitamente una network_policy, y los secretos de dominio pueden inyectarse sin exponer los valores brutos al modelo.
Habilidades en la API
Soporte nativo del estándar Agent Skills con una primera habilidad preconstruida (hojas de cálculo). Las habilidades son paquetes reutilizables y versionados que se pueden montar en entornos shell alojados, y los modelos deciden en tiempo de ejecución si deben invocarlas.
| Primitiva | Descripción | Estado |
|---|---|---|
| Compactación del lado del servidor | Sesiones de varias horas sin límites de contexto | Disponible |
| Contenedores con redes | Acceso a internet controlado para contenedores alojados | Disponible |
| Habilidades en la API | Paquetes reutilizables (primera habilidad: hojas de cálculo) | Disponible |
Kimi Agent Swarm: orquestación de 100 subagentes
10 de febrero — Kimi (Moonshot AI) revela Agent Swarm, una capacidad de coordinación multiagente que permite paralelizar tareas complejas con hasta 100 subagentes especializados.
El sistema puede ejecutar más de 1 500 llamadas de herramientas y alcanza una velocidad 4,5 veces superior a las ejecuciones secuenciales. Los casos de uso cubren la generación simultánea de múltiples archivos (Word, Excel, PDF), el análisis paralelo de contenidos y la generación creativa en múltiples estilos en paralelo. Agent Swarm resuelve un límite estructural de los LLMs: la degradación del razonamiento durante largas tareas que llenan el contexto.
OpenAI Harness Engineering: cero líneas de código manual con Codex
11 de febrero — OpenAI publica una experiencia sobre la construcción de un producto de software interno con cero líneas de código escritas manualmente. Durante 5 meses, un equipo de 3 a 7 ingenieros utilizó exclusivamente Codex para generar todo el código.
| Métrica | Valor |
|---|---|
| Líneas de código generadas | ~1 millón |
| Pull requests | ~1 500 |
| PRs por ingeniero por día | 3,5 de media |
| Usuarios internos | Varios cientos |
| Tiempo estimado | 1/10 del tiempo necesario a mano |
| Sesiones Codex | Hasta 6+ horas |
El enfoque “Harness Engineering” redefine el papel del ingeniero: diseñar entornos, especificar la intención y construir bucles de retroalimentación para los agentes, en lugar de escribir código. La documentación estructurada en el repositorio sirve de guía (AGENTS.md como índice), la arquitectura es rígida con linters y pruebas estructurales generados por Codex, y tareas recurrentes escanean desviaciones y abren PRs de refactorización automáticamente.
Runway levanta 315 millones de dólares en Serie E
10 de febrero — Runway anuncia una recaudación de fondos de 315 millones de dólares en Serie E, elevando su valoración a 5,3 mil millones de dólares. La ronda está liderada por General Atlantic, con la participación de NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein y otros.
| Detalle | Valor |
|---|---|
| Importe | 315 M$ |
| Serie | E |
| Valoración | 5,3 Mds en Serie D) |
| Inversor principal | General Atlantic |
| Total recaudado desde 2018 | 860 M$ |
Los fondos servirán para preentrenar la próxima generación de “world models” — modelos capaces de simular el mundo físico — y desplegarlos en nuevos productos e industrias. Este anuncio se produce tras el lanzamiento de Gen-4.5, el último modelo de generación de vídeo de Runway.
🔗 Anuncio oficial 🔗 Publicación de Runway en X
Cowork disponible en Windows
10 de febrero — Claude Cowork, la aplicación de escritorio para tareas de múltiples pasos, ya está disponible en Windows en vista previa de investigación con paridad completa de funciones en comparación con macOS.
| Funcionalidad | Descripción |
|---|---|
| Acceso a archivos | Lectura y escritura de archivos locales |
| Plugins | Soporte de plugins Cowork |
| Conectores MCP | Integración con servidores MCP |
| Instrucciones por carpeta | Estilo Claude.md — instrucciones en lenguaje natural por proyecto |
Cowork en Windows está disponible para todos los planes Claude de pago a través de claude.com/cowork.
Funciones gratuitas en el plan gratuito de Claude
11 de febrero — Anthropic amplía las funcionalidades accesibles en el plan gratuito de Claude. La creación de archivos, los conectores, las habilidades y la compactación ahora están disponibles sin suscripción. La compactación permite a Claude resumir automáticamente el contexto anterior para que las largas conversaciones puedan continuar sin reiniciar.
Claude Code Plan Mode en Slack
11 de febrero — La integración de Claude Code en Slack recibe el Plan Mode. Cuando se le da a Claude una tarea de código en Slack, ahora puede elaborar un plan antes de ejecutar, permitiendo validar el enfoque antes de la implementación.
| Funcionalidad | Descripción |
|---|---|
| Plan Mode | Elaboración de un plan antes de la ejecución |
| Detección automática | Enrutamiento inteligente entre código y chat |
| Creación de PR | Botón “Create PR” directamente desde Slack |
| Prerrequisitos | Plan Pro, Max, Team o Enterprise + GitHub conectado |
ElevenLabs lanza el modo Expresivo para sus agentes de voz
10 de febrero — ElevenLabs revela Expressive Mode para ElevenAgents, una evolución que hace que sus agentes de voz de IA sean capaces de adaptar su tono, emoción y énfasis en tiempo real.
El modo se basa en Eleven v3 Conversational, un modelo de síntesis de voz optimizado para el diálogo en tiempo real, junto con un nuevo sistema de turnos que reduce las interrupciones. El precio se mantiene en 0,08 $ por minuto. Paralelamente, ElevenLabs reestructura su plataforma en tres familias de productos: ElevenAgents (agentes de voz), ElevenCreative (herramientas creativas) y ElevenAPI (plataforma para desarrolladores).
Kimi K2.5 integrado en Qoder
9 de febrero — Qoder (plataforma de IA para desarrolladores) despliega Kimi K2.5 como modelo insignia de su marketplace, con una puntuación SWE-bench Verified del 76,8% y una tarifa ventajosa (0,3x crédito en el nivel Efficient). El flujo de trabajo recomendado: usar los modelos pesados para el diseño y la arquitectura, luego K2.5 para la implementación.
Qué significa esto
El código abierto continúa progresando rápidamente hacia los modelos de frontera. GLM-5 de Z.ai reduce la brecha con Claude Opus 4.5 y GPT-5.2 en los benchmarks de codificación y tareas agénticas, estando disponible bajo licencia MIT. La publicación del informe de sabotaje ASL-4 por Anthropic establece un precedente en materia de transparencia de seguridad que otros laboratorios probablemente se verán obligados a seguir.
Del lado de los desarrolladores, las primitivas agénticas de OpenAI (compactación del servidor, contenedores de red, habilidades API) y el enfoque “Harness Engineering” dibujan un futuro donde los agentes autónomos gestionan sesiones de varias horas. Kimi Agent Swarm lleva esta lógica aún más lejos con la orquestación de cientos de subagentes en paralelo.
Fuentes
- Z.ai — Blog técnico GLM-5
- Z.ai — Anuncio GLM-5 en X
- Anthropic — Hilo del Informe de Riesgo de Sabotaje
- OpenAIDevs — Primitivas agénticas
- OpenAI — Harness Engineering
- Kimi — Agent Swarm
- Runway — Financiación Serie E
- Claude — Cowork Windows
- Claude — Funciones del plan gratuito
- Boris Cherny — Claude Code Slack
- ElevenLabs — Modo Expresivo
- Qoder — Kimi K2.5