Doble lanzamiento en la cumbre: Anthropic lanza Claude Opus 4.6 con contexto de 1M de tokens y equipos de agentes, mientras que OpenAI responde con GPT-5.3-Codex y una plataforma empresarial. Google impulsa Gemini 3 en todos los frentes, y GitHub responde finalmente a una demanda de hace 8 años.
Claude Opus 4.6: SOTA en agentic coding y contexto de 1M
5 de febrero — Anthropic lanza Claude Opus 4.6, una actualización importante de su modelo más inteligente. El modelo progresa en planificación, sesiones largas, revisión de código, y ofrece por primera vez un contexto de 1 millón de tokens en beta para un modelo Opus.
| Benchmark | Puntuación | Detalle |
|---|---|---|
| Terminal-Bench 2.0 | SOTA | Puntuación más alta en agentic coding |
| Humanity’s Last Exam | SOTA | Razonamiento multidisciplinario |
| GDPval-AA | +144 Elo vs GPT-5.2 | Trabajo profesional (finanzas, legal) |
| BrowseComp | SOTA | Recuperación de información compleja |
| MRCR v2 (8-needle 1M) | 76% | vs 18.5% para Sonnet 4.5 |
Novedades en API y producto
| Funcionalidad | Descripción |
|---|---|
| Agent teams | Varios agentes Claude Code en paralelo (research preview) |
| Adaptive thinking | El modelo elige cuándo usar el pensamiento profundo |
| Effort controls | 4 niveles: bajo, medio, alto (predeterminado), máximo |
| Context compaction | Resumen automático del contexto para sesiones largas |
| 128k output tokens | Salidas más largas en una sola solicitud |
| Claude in PowerPoint | Research preview (Max, Team, Enterprise) |
Precios: Sin cambios a 25 por millón de tokens (input/output). Precios premium más allá de 200k tokens (37.50).
Disponibilidad: claude.ai, API (claude-opus-4-6), y todas las plataformas cloud principales.
Blogs de ingeniería: ruido de infraestructura y compilador C
Anthropic publica dos artículos técnicos el mismo día. El primero cuantifica el ruido de infraestructura en los benchmarks de agentic coding: en Terminal-Bench 2.0, la configuración de recursos por sí sola puede crear brechas de 6 puntos porcentuales entre configuraciones. El segundo documenta la construcción de un compilador C en Rust por 16 agentes Claude en paralelo: 100,000 líneas de código, capaz de compilar el kernel Linux 6.9 en x86, ARM y RISC-V, en ~2,000 sesiones de Claude Code por ~$20,000.
Opus 4.6 en GitHub Copilot
El mismo día, Claude Opus 4.6 está disponible en GA en GitHub Copilot a través de Agent HQ, después de la vista previa pública anunciada el día anterior.
🔗 Anuncio de Opus 4.6 | Ruido de infraestructura | Construyendo un compilador C
GPT-5.3-Codex: coding frontier + conocimientos pro
5 de febrero — OpenAI lanza GPT-5.3-Codex, que fusiona el rendimiento de codificación de GPT-5.2-Codex con las capacidades de razonamiento de GPT-5.2, todo un 25% más rápido.
| Benchmark | Puntuación |
|---|---|
| SWE-Bench Pro (Público) | 56.8% |
| Terminal-Bench 2.0 | 77.3% |
| OSWorld-Verified | 64.7% |
| GDPval (victorias o empates) | 70.9% |
| Cybersecurity CTF | 77.6% |
| SWE-Lancer IC Diamond | 81.4% |
GPT-5.3-Codex es el primer modelo que ha contribuido a su propia creación: el equipo utilizó versiones preliminares para depurar el entrenamiento, gestionar el despliegue y analizar los resultados de las pruebas.
Más allá del código
El modelo produce presentaciones, hojas de cálculo, análisis de datos y gestiona tareas de productividad en un entorno de escritorio (64.7% en OSWorld-Verified).
Ciberseguridad: alta capacidad
GPT-5.3-Codex es el primer modelo clasificado como de alta capacidad para la ciberseguridad en el marco de preparación de OpenAI, y el primero entrenado específicamente para identificar vulnerabilidades de software.
🔗 Blog GPT-5.3-Codex | System Card
OpenAI: Frontier, MCP Apps, seguridad y biotecnología
OpenAI Frontier: plataforma de agentes enterprise
5 de febrero — OpenAI lanza Frontier, una plataforma para desarrollar, desplegar y gestionar agentes de IA en la empresa. Los agentes reciben un contexto empresarial compartido, permisos y aprenden de la experiencia.
| Aspecto | Detalle |
|---|---|
| Primeros clientes | HP, Intuit, Oracle, State Farm, Thermo Fisher, Uber |
| Socios de IA | Abridge, Clay, Ambience, Decagon, Harvey, Sierra |
| Enfoque | Forward Deployed Engineers (FDE) integrados en los equipos |
| Estándares | Estándares abiertos, compatible con sistemas existentes |
ChatGPT: MCP Apps en beta
5 de febrero — Las MCP Apps llegan en beta a ChatGPT Business, Enterprise y Edu. Nuevos conectores de socios: Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte y otros. Las organizaciones pueden construir apps MCP personalizadas a través del modo desarrollador.
Trusted Access for Cyber
5 de febrero — OpenAI lanza Trusted Access for Cyber, un programa piloto de acceso basado en la confianza para capacidades cibernéticas avanzadas. Los usuarios pueden verificar su identidad en chatgpt.com/cyber. Se asignan 10 millones de dólares en créditos de API a la ciberdefensa a través del Cybersecurity Grant Program.
GPT-5 reduce el costo de síntesis de proteínas
5 de febrero — En asociación con Ginkgo Bioworks, OpenAI conecta GPT-5 a un laboratorio robótico para optimizar la síntesis de proteínas libre de células (CFPS). Resultado: 40% de reducción en el costo de producción y 57% de mejora en el costo de los reactivos, después de 36,000 composiciones probadas en 580 placas automatizadas en seis rondas de experimentación.
🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 proteínas
Google: Gemini 3, Super Bowl y NotebookLM
Gemini 3: actualizaciones y Super Bowl
5-6 de febrero — Google impulsa Gemini 3 en todos los frentes. Gemini 3 Flash, lanzado recientemente, ofrece un razonamiento de nivel Pro a la velocidad de Flash: 90.4% en GPQA Diamond y 33.7% en Humanity’s Last Exam (sin herramientas). Gemini 3 se convierte en el modelo predeterminado para las AI Overviews en Google Search.
Google también prepara un anuncio de Gemini de 60 segundos para el Super Bowl LX (8 de febrero) — el spot “New Home” muestra a un niño preparándose para una mudanza con la ayuda de Gemini, ilustrando las capacidades de búsqueda en Google Photos y la generación de imágenes.
NotebookLM: Infographics y Slide Decks
NotebookLM, ahora construido sobre Gemini 3, despliega Infographics y Slide Decks para usuarios Free y Pro. Los Slide Decks ya son el segundo output studio más popular. Los usuarios Ultra pueden eliminar la marca de agua.
🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics
GitHub: comentarios fijados en Issues
5 de febrero — GitHub lanza los comentarios fijados en Issues. Ahora es posible fijar un comentario en la parte superior de un issue desde el menú contextual. Una función solicitada desde 2017 para resaltar decisiones, actualizaciones y próximos pasos clave en hilos largos.
Qué significa esto
El 5 de febrero de 2026 quedará como un día histórico: Anthropic y OpenAI lanzan simultáneamente sus modelos de codificación más avanzados. Claude Opus 4.6 domina los benchmarks de trabajo profesional y recuperación de información, mientras que GPT-5.3-Codex sobresale en codificación en terminal y uso de ordenadores. Ambos modelos reclaman el SOTA (State Of The Art) en Terminal-Bench 2.0 — el artículo de Anthropic sobre el ruido de infraestructura cobra todo el sentido.
Más allá de los modelos, la batalla de las plataformas se intensifica: OpenAI Frontier ataca la empresa con agentes desplegados en Oracle y Uber, mientras que Anthropic apuesta por el ecosistema de desarrolladores (GitHub, Xcode, Claude Code). Google avanza en todos los frentes con Gemini 3 en Search, Chrome y NotebookLM, y prepara el Super Bowl para anclar Gemini en el gran público.
Fuentes
- Introducing Claude Opus 4.6
- Quantifying infrastructure noise
- Building a C compiler with parallel Claudes
- Introducing GPT-5.3-Codex
- GPT-5.3-Codex System Card
- Introducing OpenAI Frontier
- Introducing apps in ChatGPT
- Trusted Access for Cyber
- GPT-5 lowers protein synthesis cost
- Gemini 3 Flash
- NotebookLM Infographics
- Pinned comments on GitHub Issues