Claude Sonnet 4.6, Qwen3.5-397B de peso abierto, Google lanza Lyria 3

Anthropic golpea fuerte con Claude Sonnet 4.6, un modelo que rivaliza con Opus en numerosas tareas a precio de Sonnet. Paralelamente, Qwen publica su primer modelo Qwen3.5 de peso abierto (open-weight) con 397 mil millones de parámetros, y Google integra Lyria 3 —su modelo de generación musical— directamente en Gemini.

Claude Sonnet 4.6: rendimiento de Opus a precio de Sonnet

17 de febrero — Anthropic lanza Claude Sonnet 4.6, descrito como el Sonnet más capaz hasta la fecha. El modelo representa una actualización completa en codificación, uso de ordenador (computer use), razonamiento de contexto largo, planificación de agentes, trabajo intelectual y diseño. Incorpora una ventana de contexto de 1 millón de tokens en beta.

El posicionamiento es claro: rendimientos que habrían requerido un modelo Opus ahora son accesibles a la tarifa de Sonnet, es decir, $3 /$ 15 por millón de tokens (sin cambios respecto a Sonnet 4.5). Sonnet 4.6 se convierte en el modelo predeterminado en los planes Free y Pro en claude.ai y Claude Cowork.

Benchmarks y comentarios de usuarios

En Claude Code, los probadores prefirieron Sonnet 4.6 a Sonnet 4.5 aproximadamente el 70% del tiempo, informando de una mejor lectura del contexto antes de modificar el código y una consolidación de la lógica compartida en lugar de duplicarla. Más notable aún: los usuarios prefirieron Sonnet 4.6 a Opus 4.5 (el modelo frontier de noviembre de 2025) el 59% del tiempo, citando menos sobreingeniería, menos “pereza” y un mejor seguimiento de las instrucciones.

Benchmark	Puntuación
SWE-bench Verified	80.2% (con modificación de prompt)
OSWorld (computer use)	Progreso mayor en 16 meses
OfficeQA	Iguala a Opus 4.6
Vending-Bench Arena	Estrategia emergente de inversión/pivote

El computer use progresa significativamente: Sonnet 4.6 también mejora la resistencia a las inyecciones de prompts en comparación con Sonnet 4.5, alcanzando un nivel comparable a Opus 4.6.

Actualizaciones de producto asociadas

El anuncio va acompañado de varios lanzamientos de disponibilidad general en la API de Claude: ejecución de código, memoria, llamadas a herramientas programáticas, búsqueda de herramientas y ejemplos de uso de herramientas. La búsqueda web y las herramientas fetch integran ahora un filtrado dinámico — Claude escribe y ejecuta automáticamente código para filtrar los resultados de búsqueda, manteniendo solo el contenido relevante en contexto.

🔗 Búsqueda web mejorada con filtrado dinámico

Para los usuarios de Claude en Excel, el complemento ahora soporta conectores MCP (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet), disponible en los planes Pro, Max, Team y Enterprise.

🔗 Anuncio oficial

Anthropic mide la autonomía de los agentes de IA en condiciones reales

18 de febrero — Anthropic publica un estudio que analiza millones de interacciones humano-agente a través de Claude Code y la API pública, con un objetivo: comprender cómo gestionan los humanos la autonomía de los agentes en la práctica.

Resultados clave

Métrica	Valor
Duración máxima autónoma (percentil 99.9)	~45 minutos (duplicado en 3 meses)
Auto-approve (usuarios experimentados)	40%+ (vs 20% para los nuevos)
Cuota de ingeniería de software en el tráfico API	~50%
Acciones con salvaguardas	80%
Acciones con humano en el bucle	73%
Acciones irreversibles	0.8%

Un hallazgo contraintuitivo: los usuarios experimentados aumentan tanto la tasa de auto-approve COMO la tasa de interrupción. Pasan de una supervisión acción por acción a una monitorización activa con intervención dirigida. Por otra parte, Claude se detiene para pedir aclaraciones más a menudo de lo que los humanos lo interrumpen, particularmente en tareas complejas.

El estudio concluye que existe una brecha significativa entre capacidad y uso: la autonomía que los modelos son capaces de gestionar supera ampliamente la que se les otorga en la práctica — un fenómeno que los investigadores califican de “excedente de autonomía no desplegada”.

🔗 Estudio completo

Anthropic: asociaciones con Ruanda e Infosys

17 de febrero — Paralelamente al lanzamiento de Sonnet 4.6, Anthropic firma un memorando de entendimiento con el gobierno de Ruanda para desplegar Claude en los sectores de salud, educación y administración pública. La asociación, liderada con el Ministerio de TIC e Innovación, incluye la formación de funcionarios y el despliegue de un compañero de aprendizaje de IA en ocho países africanos.

Anthropic también anuncia una colaboración con Infosys para construir agentes de IA destinados a las telecomunicaciones y otras industrias reguladas.

🔗 Asociación con Ruanda

Qwen3.5-397B-A17B: primer open-weight de la serie 3.5

16 de febrero — Alibaba Qwen publica Qwen3.5-397B-A17B, el primer modelo de peso abierto (open-weight) de la serie Qwen3.5. Se trata de un avance significativo con una arquitectura híbrida que combina atención lineal y Mixture-of-Experts (MoE) dispersa.

Característica	Detalles
Parámetros totales	397B (arquitectura híbrida MoE)
Arquitectura	Atención lineal híbrida + MoE dispersa
Rendimiento	8.6x a 19.0x superior a Qwen3-Max
Idiomas	201 idiomas y dialectos
Licencia	Apache 2.0
Entrenamiento	Aprendizaje por refuerzo a gran escala
Especialidad	Multimodal nativo, agentes reales

El modelo está disponible inmediatamente en Hugging Face, ModelScope, Alibaba Cloud Model Studio y a través de Qwen Code. Con 201 idiomas soportados y una licencia Apache 2.0, es uno de los modelos de peso abierto más ambiciosos del momento en términos de cobertura lingüística y rendimiento de inferencia.

🔗 Tweet @Alibaba_Qwen

Google Lyria 3: la generación musical llega a Gemini

18 de febrero — Google y DeepMind presentan Lyria 3, un modelo de generación musical por IA integrado directamente en la aplicación Gemini. Los usuarios pueden crear pistas musicales de 30 segundos a partir de prompts de texto, fotos o vídeos, con generación de letras personalizadas.

Funcionalidad	Detalles
Entradas	Texto, imágenes, vídeos
Salida	Pistas de audio de 30 segundos
Personalización	Estilos musicales variados, letras generadas
Disponibilidad	Beta en Gemini (18+ años)

Lyria 3 demuestra una flexibilidad notable en las combinaciones de instrumentos y géneros, permitiendo creaciones que van desde el jingle hasta composiciones lo-fi. El despliegue mundial es progresivo.

🔗 Tweet @GoogleAI

OpenAI EVMbench: benchmark de seguridad para contratos inteligentes

18 de febrero — OpenAI y Paradigm lanzan EVMbench, un benchmark que evalúa la capacidad de los agentes de IA para detectar, corregir y explotar vulnerabilidades en contratos inteligentes de Ethereum. El benchmark se basa en 120 vulnerabilidades curadas procedentes de 40 auditorías (principalmente competiciones Code4rena).

Modo	Descripción	GPT-5.3-Codex	GPT-5 (6 meses)
Exploit	Ejecutar ataques de drenaje	72.2%	31.9%
Detect	Auditar y detectar vulnerabilidades	< cobertura completa	-
Patch	Corregir preservando la funcionalidad	< cobertura completa	-

Un hallazgo interesante: los agentes de IA tienen más éxito en la explotación (objetivo explícito) que en la detección y corrección, donde a menudo abandonan después de la primera vulnerabilidad encontrada. OpenAI reafirma su compromiso de $10M en créditos API para la ciberseguridad defensiva.

🔗 Anuncio de EVMbench

Informe Técnico GLM-5: Z.ai documenta su modelo

18 de febrero — Z.ai publica el informe técnico completo de GLM-5, detallando las innovaciones arquitectónicas del modelo lanzado el 11 de febrero (744B parámetros, 40B activos, licencia MIT).

Tres innovaciones clave documentadas: Atención Dispersa Dinámica (DSA) para reducir los costes de entrenamiento e inferencia, una infraestructura RL asíncrona que desacopla la generación y el entrenamiento, y algoritmos RL para agentes que permiten interacciones complejas y de horizonte largo. El informe está disponible en arXiv.

🔗 Tweet @Zai_org · 🔗 arXiv

Cohere Labs Tiny Aya: IA multilingüe ultracompacta

17 de febrero — Cohere Labs presenta Tiny Aya, una familia de pequeños modelos de lenguaje que soportan 70+ idiomas con solo 3.35 mil millones de parámetros. El objetivo: hacer que la IA multilingüe sea accesible en todas partes, incluso en teléfonos y sin conexión.

Tiny Aya se dirige a tres públicos: investigadores que trabajan en idiomas distintos al inglés, desarrolladores que construyen para comunidades digitalmente desatendidas y aplicaciones integradas que requieren traducción fiable sin dependencia de la nube. El modelo incluye una capacidad de traducción offline, mejorando la privacidad y reduciendo la latencia.

🔗 Tweet @cohere

Runway Gen-4.5 disponible vía API + Claude Code Skill

17 de febrero — Runway abre el acceso a Gen-4.5 a través de su API, permitiendo a los desarrolladores integrar la generación de imágenes, vídeo y audio directamente en sus proyectos. El anuncio va acompañado de un Claude Code Skill dedicado, disponible en GitHub, que permite generar contenido multimedia de Runway sin salir del entorno de desarrollo.

🔗 Tweet @runwayml · 🔗 GitHub Skills

Manus Agents: agente personal con memoria a largo plazo

16 de febrero — Manus lanza Manus Agents, una capacidad que permite a cada usuario disponer de un agente personal directamente en las conversaciones de chat. El agente combina memoria a largo plazo (estilo, tono y preferencias retenidas), capacidades completas de creación (vídeos, diapositivas, sitios, imágenes) e integraciones directas con Gmail, Calendar y Notion.

🔗 Tweet @ManusAI

ElevenAgents for Support

17 de febrero — ElevenLabs lanza ElevenAgents for Support, agentes conversacionales de IA para el servicio de atención al cliente. Funcionando en voz y canales digitales en más de 70 idiomas, estos agentes se basan en la plataforma agéntica de ElevenLabs y sus más de 4 millones de despliegues en producción.

🔗 ElevenLabs Agents

NotebookLM x Zillow: cuaderno inmobiliario

18 de febrero — NotebookLM lanza en asociación con Zillow un cuaderno destacado gratuito para compradores de viviendas, centralizando los consejos de expertos sobre preparación financiera, evaluación del mercado y procedimientos de compra.

🔗 Tweet @NotebookLM

Qué significa esto

Esta semana ilustra dos tendencias principales. La primera es la democratización de los rendimientos frontier: Sonnet 4.6 aporta capacidades de Opus a una tarifa 5 veces inferior, mientras que Qwen3.5 hace accesible un modelo de 397B parámetros en Apache 2.0. La segunda es la expansión de los agentes de IA en nuevos ámbitos — el estudio de Anthropic muestra que las sesiones autónomas más largas se han duplicado en tres meses, y actores como Manus, ElevenLabs y Runway construyen agentes especializados (chat personal, soporte al cliente, creación multimedia).

La llegada de la generación musical a Gemini con Lyria 3 y el benchmark EVMbench para la seguridad blockchain muestran también que la IA generativa y la IA de seguridad continúan estructurándose como campos de pleno derecho.