Anthropic expone ataques de destilación industrial, OpenAI abandona SWE-bench Verified, gpt-realtime-1.5

Anthropic publica hoy un informe detallando campañas de destilación industrial llevadas a cabo por tres laboratorios chinos — DeepSeek, Moonshot AI y MiniMax — que recolectaron más de 16 millones de intercambios con Claude mediante 24 000 cuentas fraudulentas. OpenAI, por su parte, anuncia que abandona SWE-bench Verified como referencia para sus modelos de vanguardia, tras demostrar que el 59,4 % de las pruebas del benchmark son defectuosas y que varios modelos de punta memorizaron las correcciones de referencia durante el entrenamiento. En cuanto a herramientas, gpt-realtime-1.5 mejora la Realtime API de voz, los WebSockets llegan a la Responses API para agentes de larga duración, y Gemini despliega nuevas plantillas Veo 3.1 para la creación de vídeo.

Anthropic: ataques de destilación industrial por tres laboratorios chinos

23 de febrero — Anthropic publica un informe que revela que DeepSeek, Moonshot AI (Kimi) y MiniMax llevaron a cabo campañas de destilación ilícita a gran escala contra los modelos Claude.

Lo que pasó

Los tres laboratorios crearon alrededor de 24 000 cuentas fraudulentas para generar más de 16 millones de intercambios con Claude vía la API, en violación de los términos de uso de Anthropic y de las restricciones de acceso regionales: China no tiene acceso comercial a Claude.

La técnica empleada, la destilación de modelos, consiste en entrenar un modelo menos capaz usando las salidas de un modelo más capaz. Es legítima cuando se usa internamente; se vuelve ilícita cuando competidores extraen las capacidades de otro laboratorio sin autorización.

Volumen por laboratorio

Lab	Volumen de intercambios	Objetivos principales
DeepSeek	+150 000 intercambios	Razonamiento, clasificación por rúbrica, alternativas censorship-safe
Moonshot AI (Kimi)	+3,4 millones de intercambios	Razonamiento agente, codificación, uso de ordenador, visión
MiniMax	+13 millones de intercambios	Codificación agente, uso de herramientas, orquestación

Técnicas notables

La campaña de DeepSeek se distingue por sus prompts que pedían a Claude articular su razonamiento interno paso a paso — generando así datos de entrenamiento del tipo chain-of-thought a gran escala. Anthropic también detectó tareas encaminadas a entrenar a DeepSeek para proponer alternativas a preguntas políticamente sensibles.

Anthropic detectó la campaña de MiniMax mientras aún estaba activa. Cuando Anthropic lanzó un nuevo modelo, MiniMax redirigió en 24 horas cerca de la mitad de su tráfico hacia el nuevo sistema — lo que demuestra una vigilancia automatizada de las salidas de Anthropic.

La infraestructura utilizada se basa en arquitecturas de “hydra cluster”: redes de cuentas fraudulentas que distribuyen el tráfico hacia la API y plataformas cloud de terceros. Una sola red proxy gestionaba más de 20 000 cuentas simultáneamente.

Respuesta de Anthropic

Anthropic ha puesto en marcha varias contramedidas: clasificadores y sistemas de fingerprinting comportamental para detectar patrones de destilación, intercambio de datos técnicos con otros laboratorios, proveedores cloud y autoridades, refuerzo de las verificaciones para cuentas educativas y de investigación, y desarrollo de contramedidas a nivel de producto, API y modelo.

“These labs created over 24,000 fraudulent accounts and generated over 16 million exchanges with Claude, extracting its capabilities to train and improve their own models.”

🇪🇸 Estos laboratorios crearon más de 24 000 cuentas fraudulentas y generaron más de 16 millones de intercambios con Claude, extrayendo sus capacidades para entrenar y mejorar sus propios modelos. — @AnthropicAI en X

🔗 Informe Anthropic 🔗 Anuncio @AnthropicAI

OpenAI abandona SWE-bench Verified: 59,4 % de tests defectuosos

23 de febrero — OpenAI publica un análisis que explica por qué la compañía dejará de reportar puntuaciones SWE-bench Verified y recomienda a la industria hacer lo mismo.

Contexto

Desde su creación en agosto de 2024, SWE-bench Verified se convirtió en el estándar de referencia para medir los avances de los modelos en tareas de desarrollo de software autónomo. Tras un progreso rápido — del 0 % al 75 % en un año — las puntuaciones se estancaron entre 74,9 % y 80,9 % en los últimos seis meses. OpenAI realizó una auditoría exhaustiva para entender si este techo refleja los límites de los modelos o defectos del propio benchmark.

Resultados de la auditoría: dos problemas principales

En un subconjunto de 138 problemas auditados (27,6 % del dataset), al menos 59,4 % presentan tests que rechazan soluciones funcionalmente correctas. La distribución de los defectos:

Tipo de defecto	Parte de los casos defectuosos
Tests demasiado restrictivos en detalles de implementación	35,5 %
Tests de funcionalidades no especificadas en el enunciado	18,8 %
Otros defectos (tests inestables, specs ambiguas)	5,1 %

El segundo problema es la contaminación de los datos de entrenamiento: los problemas de SWE-bench proceden de repositorios open source ampliamente usados para el entrenamiento. A través de un pipeline de red-teaming automatizado, OpenAI demostró que GPT-5.2, Claude Opus 4.5 y Gemini 3 Flash Preview son capaces de reproducir literalmente las correcciones de referencia (correcciones de referencia) para ciertos problemas — prueba de que estos ejemplos se vieron durante el entrenamiento.

Recomendaciones

OpenAI ha dejado de reportar puntuaciones SWE-bench Verified y recomienda usar SWE-bench Pro en su lugar — su split público presenta significativamente menos contaminación. La empresa también insta a la comunidad académica a invertir en benchmarks privados no contaminados, como GDPVal (tareas redactadas por expertos en la materia con evaluación holística).

🔗 Artículo de OpenAI

OpenAI: gpt-realtime-1.5 y WebSockets en la Responses API

gpt-realtime-1.5 en la Realtime API

23 de febrero — OpenAI anuncia la disponibilidad de gpt-realtime-1.5 en la Realtime API. Este nuevo modelo de voz sustituye a la versión anterior y aporta mejoras para aplicaciones conversacionales en tiempo real.

gpt-realtime-1.5 ofrece un mejor seguimiento de instrucciones, un uso de herramientas más fiable y una mayor precisión multilingüe. Socios como Genspark han medido resultados concretos durante la fase alfa: aumento de la tasa de conexión humana del 43,7 % al 66 %, y una tasa de precisión del 97,9 % en las conversaciones evaluadas. El modelo está disponible directamente en la Realtime API existente sin cambios de infraestructura.

🔗 Tuit @OpenAIDevs

WebSockets en la Responses API

23 de febrero — OpenAI introduce el soporte de WebSockets en la Responses API, pensado para agentes de larga ejecución con llamadas intensivas a herramientas.

Una conexión WebSocket persistente permite enviar solo las nuevas entradas en cada turno, sin retransmitir todo el contexto en cada petición. El estado se mantiene en memoria entre las interacciones, lo que evita recálculos redundantes. Según OpenAI, este enfoque acelera las ejecuciones agenticas con 20 llamadas a herramientas o más entre un 20 y 40 %.

🔗 Tuit @OpenAIDevs — anuncio

Anthropic: The AI Fluency Index

23 de febrero — Anthropic publica “The AI Fluency Index”, un informe de investigación que mide la soltura en IA entre los usuarios de Claude analizando sus comportamientos reales.

El estudio siguió 11 comportamientos distintos a través de miles de conversaciones en Claude.ai — por ejemplo, la frecuencia con la que los usuarios iteran y refinan su trabajo con Claude — para medir cómo las personas desarrollan una competencia efectiva con la IA en la práctica. El informe se enmarca en una labor de educación y comprensión de la adopción de la IA, más allá de las meras métricas de uso.

“We tracked 11 behaviors across thousands of Claude.ai conversations—for example, how often people iterate and refine their work with Claude—to measure how people actually develop AI skill in practice.”

🇪🇸 Hicimos el seguimiento de 11 comportamientos a través de miles de conversaciones en Claude.ai — por ejemplo, la frecuencia con la que la gente itera y perfecciona su trabajo con Claude — para medir cómo la gente desarrolla realmente una competencia en IA en la práctica. — @AnthropicAI en X

🔗 Índice de Fluidez de la IA

Gemini: nuevas plantillas Veo 3.1 para la creación de vídeo

23 de febrero — Google despliega nuevas plantillas para Veo 3.1 en la aplicación Gemini, simplificando la creación de vídeo por IA para todos los usuarios.

Para acceder: abrir gemini.google o la app móvil, y luego seleccionar “Create videos” en el menú de herramientas. La galería de plantillas aparece, y cada modelo puede personalizarse con una foto de referencia y/o una descripción textual.

Este anuncio se inscribe en una semana intensa para el ecosistema Gemini: el 19 de febrero, Google lanzó Gemini 3.1 Pro con una puntuación del 77,1 % en ARC-AGI-2, y el 18 de febrero, Lyria 3 introdujo la generación musical directamente en la app. Las plantillas Veo 3.1 complementan esta expansión hacia la creación multimodal dentro de una única aplicación.

🔗 Anuncio @GeminiApp

Pika AI Selves: una serie documental realizada de forma autónoma por agentes IA

23 de febrero — Pika anuncia que sus “AI Selves” — extensiones IA de la personalidad y las competencias de un creador — dirigieron y editaron de forma autónoma su propia serie documental, sobre el tema de su colaboración con los humanos en Pika.

El concepto “AI Self” de Pika se diferencia de los agentes IA clásicos: en lugar de ser una herramienta que ejecuta tareas, un “AI Self” sería una extensión que incorpora las habilidades, la personalidad y el gusto estético de un creador específico. La demostración adopta la forma de una serie documental enteramente realizada por esas entidades IA, sin intervención humana en el montaje y la dirección.

🔗 Anuncio @pika_labs

Qué significa esto

El caso de destilación revelado por Anthropic va más allá de la simple violación de los términos de uso: documenta por primera vez a gran escala cómo laboratorios competidores extraen sistemáticamente las capacidades de un modelo frontier. La sofisticación de la operación MiniMax — redirección de tráfico en 24 horas hacia un nuevo modelo, infraestructura “hydra” con 20 000 cuentas — sugiere una vigilancia continua y automatizada. El llamado de Anthropic a una respuesta coordinada de la industria y de los reguladores, articulado junto con controles a la exportación de chips, dibuja un nuevo frente en la competición entre laboratorios de IA.

La decisión de OpenAI de abandonar SWE-bench Verified es una señal estructural para toda la industria: los benchmarks de codificación de uso público están ahora contaminados por los datos de entrenamiento de los modelos más performantes. La recomendación de pasarse a SWE-bench Pro y a benchmarks privados como GDPVal anuncia una reconfiguración de los estándares de evaluación — lo que hace que las comparaciones públicas entre modelos sean aún más difíciles de interpretar.

En cuanto a las herramientas, los dos anuncios de OpenAI (gpt-realtime-1.5 y WebSockets) apuntan a casos de uso concretos: agentes de voz en producción y ejecuciones agenticas de larga duración con numerosas llamadas a herramientas. La mejora del 20-40 % con WebSockets no es marginal para flujos de trabajo que encadenan 50 o 100 llamadas a herramientas por sesión.

Fuentes

Este documento fue traducido de la versión fr al idioma es utilizando el modelo gpt-5-mini. Para más información sobre el proceso de traducción, consulte https://gitlab.com/jls42/ai-powered-markdown-translator