Buscar

Claude Sonnet 4.6, Qwen3.5-397B de peso abierto, Google lanza Lyria 3

Claude Sonnet 4.6, Qwen3.5-397B de peso abierto, Google lanza Lyria 3

Anthropic golpea fuerte con Claude Sonnet 4.6, un modelo que rivaliza con Opus en numerosas tareas a precio de Sonnet. Paralelamente, Qwen publica su primer modelo Qwen3.5 de peso abierto (open-weight) con 397 mil millones de parámetros, y Google integra Lyria 3 —su modelo de generación musical— directamente en Gemini.


Claude Sonnet 4.6: rendimiento de Opus a precio de Sonnet

17 de febrero — Anthropic lanza Claude Sonnet 4.6, descrito como el Sonnet más capaz hasta la fecha. El modelo representa una actualización completa en codificación, uso de ordenador (computer use), razonamiento de contexto largo, planificación de agentes, trabajo intelectual y diseño. Incorpora una ventana de contexto de 1 millón de tokens en beta.

El posicionamiento es claro: rendimientos que habrían requerido un modelo Opus ahora son accesibles a la tarifa de Sonnet, es decir, 3/3 / 15 por millón de tokens (sin cambios respecto a Sonnet 4.5). Sonnet 4.6 se convierte en el modelo predeterminado en los planes Free y Pro en claude.ai y Claude Cowork.

Benchmarks y comentarios de usuarios

En Claude Code, los probadores prefirieron Sonnet 4.6 a Sonnet 4.5 aproximadamente el 70% del tiempo, informando de una mejor lectura del contexto antes de modificar el código y una consolidación de la lógica compartida en lugar de duplicarla. Más notable aún: los usuarios prefirieron Sonnet 4.6 a Opus 4.5 (el modelo frontier de noviembre de 2025) el 59% del tiempo, citando menos sobreingeniería, menos “pereza” y un mejor seguimiento de las instrucciones.

BenchmarkPuntuación
SWE-bench Verified80.2% (con modificación de prompt)
OSWorld (computer use)Progreso mayor en 16 meses
OfficeQAIguala a Opus 4.6
Vending-Bench ArenaEstrategia emergente de inversión/pivote

El computer use progresa significativamente: Sonnet 4.6 también mejora la resistencia a las inyecciones de prompts en comparación con Sonnet 4.5, alcanzando un nivel comparable a Opus 4.6.

Actualizaciones de producto asociadas

El anuncio va acompañado de varios lanzamientos de disponibilidad general en la API de Claude: ejecución de código, memoria, llamadas a herramientas programáticas, búsqueda de herramientas y ejemplos de uso de herramientas. La búsqueda web y las herramientas fetch integran ahora un filtrado dinámico — Claude escribe y ejecuta automáticamente código para filtrar los resultados de búsqueda, manteniendo solo el contenido relevante en contexto.

🔗 Búsqueda web mejorada con filtrado dinámico

Para los usuarios de Claude en Excel, el complemento ahora soporta conectores MCP (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet), disponible en los planes Pro, Max, Team y Enterprise.

🔗 Anuncio oficial


Anthropic mide la autonomía de los agentes de IA en condiciones reales

18 de febrero — Anthropic publica un estudio que analiza millones de interacciones humano-agente a través de Claude Code y la API pública, con un objetivo: comprender cómo gestionan los humanos la autonomía de los agentes en la práctica.

Resultados clave

MétricaValor
Duración máxima autónoma (percentil 99.9)~45 minutos (duplicado en 3 meses)
Auto-approve (usuarios experimentados)40%+ (vs 20% para los nuevos)
Cuota de ingeniería de software en el tráfico API~50%
Acciones con salvaguardas80%
Acciones con humano en el bucle73%
Acciones irreversibles0.8%

Un hallazgo contraintuitivo: los usuarios experimentados aumentan tanto la tasa de auto-approve COMO la tasa de interrupción. Pasan de una supervisión acción por acción a una monitorización activa con intervención dirigida. Por otra parte, Claude se detiene para pedir aclaraciones más a menudo de lo que los humanos lo interrumpen, particularmente en tareas complejas.

El estudio concluye que existe una brecha significativa entre capacidad y uso: la autonomía que los modelos son capaces de gestionar supera ampliamente la que se les otorga en la práctica — un fenómeno que los investigadores califican de “excedente de autonomía no desplegada”.

🔗 Estudio completo


Anthropic: asociaciones con Ruanda e Infosys

17 de febrero — Paralelamente al lanzamiento de Sonnet 4.6, Anthropic firma un memorando de entendimiento con el gobierno de Ruanda para desplegar Claude en los sectores de salud, educación y administración pública. La asociación, liderada con el Ministerio de TIC e Innovación, incluye la formación de funcionarios y el despliegue de un compañero de aprendizaje de IA en ocho países africanos.

Anthropic también anuncia una colaboración con Infosys para construir agentes de IA destinados a las telecomunicaciones y otras industrias reguladas.

🔗 Asociación con Ruanda


Qwen3.5-397B-A17B: primer open-weight de la serie 3.5

16 de febrero — Alibaba Qwen publica Qwen3.5-397B-A17B, el primer modelo de peso abierto (open-weight) de la serie Qwen3.5. Se trata de un avance significativo con una arquitectura híbrida que combina atención lineal y Mixture-of-Experts (MoE) dispersa.

CaracterísticaDetalles
Parámetros totales397B (arquitectura híbrida MoE)
ArquitecturaAtención lineal híbrida + MoE dispersa
Rendimiento8.6x a 19.0x superior a Qwen3-Max
Idiomas201 idiomas y dialectos
LicenciaApache 2.0
EntrenamientoAprendizaje por refuerzo a gran escala
EspecialidadMultimodal nativo, agentes reales

El modelo está disponible inmediatamente en Hugging Face, ModelScope, Alibaba Cloud Model Studio y a través de Qwen Code. Con 201 idiomas soportados y una licencia Apache 2.0, es uno de los modelos de peso abierto más ambiciosos del momento en términos de cobertura lingüística y rendimiento de inferencia.

🔗 Tweet @Alibaba_Qwen


Google Lyria 3: la generación musical llega a Gemini

18 de febrero — Google y DeepMind presentan Lyria 3, un modelo de generación musical por IA integrado directamente en la aplicación Gemini. Los usuarios pueden crear pistas musicales de 30 segundos a partir de prompts de texto, fotos o vídeos, con generación de letras personalizadas.

FuncionalidadDetalles
EntradasTexto, imágenes, vídeos
SalidaPistas de audio de 30 segundos
PersonalizaciónEstilos musicales variados, letras generadas
DisponibilidadBeta en Gemini (18+ años)

Lyria 3 demuestra una flexibilidad notable en las combinaciones de instrumentos y géneros, permitiendo creaciones que van desde el jingle hasta composiciones lo-fi. El despliegue mundial es progresivo.

🔗 Tweet @GoogleAI


OpenAI EVMbench: benchmark de seguridad para contratos inteligentes

18 de febrero — OpenAI y Paradigm lanzan EVMbench, un benchmark que evalúa la capacidad de los agentes de IA para detectar, corregir y explotar vulnerabilidades en contratos inteligentes de Ethereum. El benchmark se basa en 120 vulnerabilidades curadas procedentes de 40 auditorías (principalmente competiciones Code4rena).

ModoDescripciónGPT-5.3-CodexGPT-5 (6 meses)
ExploitEjecutar ataques de drenaje72.2%31.9%
DetectAuditar y detectar vulnerabilidades< cobertura completa-
PatchCorregir preservando la funcionalidad< cobertura completa-

Un hallazgo interesante: los agentes de IA tienen más éxito en la explotación (objetivo explícito) que en la detección y corrección, donde a menudo abandonan después de la primera vulnerabilidad encontrada. OpenAI reafirma su compromiso de $10M en créditos API para la ciberseguridad defensiva.

🔗 Anuncio de EVMbench


Informe Técnico GLM-5: Z.ai documenta su modelo

18 de febrero — Z.ai publica el informe técnico completo de GLM-5, detallando las innovaciones arquitectónicas del modelo lanzado el 11 de febrero (744B parámetros, 40B activos, licencia MIT).

Tres innovaciones clave documentadas: Atención Dispersa Dinámica (DSA) para reducir los costes de entrenamiento e inferencia, una infraestructura RL asíncrona que desacopla la generación y el entrenamiento, y algoritmos RL para agentes que permiten interacciones complejas y de horizonte largo. El informe está disponible en arXiv.

🔗 Tweet @Zai_org · 🔗 arXiv


Cohere Labs Tiny Aya: IA multilingüe ultracompacta

17 de febrero — Cohere Labs presenta Tiny Aya, una familia de pequeños modelos de lenguaje que soportan 70+ idiomas con solo 3.35 mil millones de parámetros. El objetivo: hacer que la IA multilingüe sea accesible en todas partes, incluso en teléfonos y sin conexión.

Tiny Aya se dirige a tres públicos: investigadores que trabajan en idiomas distintos al inglés, desarrolladores que construyen para comunidades digitalmente desatendidas y aplicaciones integradas que requieren traducción fiable sin dependencia de la nube. El modelo incluye una capacidad de traducción offline, mejorando la privacidad y reduciendo la latencia.

🔗 Tweet @cohere


Runway Gen-4.5 disponible vía API + Claude Code Skill

17 de febrero — Runway abre el acceso a Gen-4.5 a través de su API, permitiendo a los desarrolladores integrar la generación de imágenes, vídeo y audio directamente en sus proyectos. El anuncio va acompañado de un Claude Code Skill dedicado, disponible en GitHub, que permite generar contenido multimedia de Runway sin salir del entorno de desarrollo.

🔗 Tweet @runwayml · 🔗 GitHub Skills


Manus Agents: agente personal con memoria a largo plazo

16 de febrero — Manus lanza Manus Agents, una capacidad que permite a cada usuario disponer de un agente personal directamente en las conversaciones de chat. El agente combina memoria a largo plazo (estilo, tono y preferencias retenidas), capacidades completas de creación (vídeos, diapositivas, sitios, imágenes) e integraciones directas con Gmail, Calendar y Notion.

🔗 Tweet @ManusAI


ElevenAgents for Support

17 de febrero — ElevenLabs lanza ElevenAgents for Support, agentes conversacionales de IA para el servicio de atención al cliente. Funcionando en voz y canales digitales en más de 70 idiomas, estos agentes se basan en la plataforma agéntica de ElevenLabs y sus más de 4 millones de despliegues en producción.

🔗 ElevenLabs Agents


NotebookLM x Zillow: cuaderno inmobiliario

18 de febrero — NotebookLM lanza en asociación con Zillow un cuaderno destacado gratuito para compradores de viviendas, centralizando los consejos de expertos sobre preparación financiera, evaluación del mercado y procedimientos de compra.

🔗 Tweet @NotebookLM


Qué significa esto

Esta semana ilustra dos tendencias principales. La primera es la democratización de los rendimientos frontier: Sonnet 4.6 aporta capacidades de Opus a una tarifa 5 veces inferior, mientras que Qwen3.5 hace accesible un modelo de 397B parámetros en Apache 2.0. La segunda es la expansión de los agentes de IA en nuevos ámbitos — el estudio de Anthropic muestra que las sesiones autónomas más largas se han duplicado en tres meses, y actores como Manus, ElevenLabs y Runway construyen agentes especializados (chat personal, soporte al cliente, creación multimedia).

La llegada de la generación musical a Gemini con Lyria 3 y el benchmark EVMbench para la seguridad blockchain muestran también que la IA generativa y la IA de seguridad continúan estructurándose como campos de pleno derecho.


Fuentes