Buscar

Claude Opus 4.6 y GPT-5.3-Codex: Lanzamiento doble, actualización de Gemini 3

Claude Opus 4.6 y GPT-5.3-Codex: Lanzamiento doble, actualización de Gemini 3

Doble lanzamiento en la cumbre: Anthropic lanza Claude Opus 4.6 con contexto de 1M de tokens y equipos de agentes, mientras que OpenAI responde con GPT-5.3-Codex y una plataforma empresarial. Google impulsa Gemini 3 en todos los frentes, y GitHub responde finalmente a una demanda de hace 8 años.


Claude Opus 4.6: SOTA en agentic coding y contexto de 1M

5 de febrero — Anthropic lanza Claude Opus 4.6, una actualización importante de su modelo más inteligente. El modelo progresa en planificación, sesiones largas, revisión de código, y ofrece por primera vez un contexto de 1 millón de tokens en beta para un modelo Opus.

BenchmarkPuntuaciónDetalle
Terminal-Bench 2.0SOTAPuntuación más alta en agentic coding
Humanity’s Last ExamSOTARazonamiento multidisciplinario
GDPval-AA+144 Elo vs GPT-5.2Trabajo profesional (finanzas, legal)
BrowseCompSOTARecuperación de información compleja
MRCR v2 (8-needle 1M)76%vs 18.5% para Sonnet 4.5

Novedades en API y producto

FuncionalidadDescripción
Agent teamsVarios agentes Claude Code en paralelo (research preview)
Adaptive thinkingEl modelo elige cuándo usar el pensamiento profundo
Effort controls4 niveles: bajo, medio, alto (predeterminado), máximo
Context compactionResumen automático del contexto para sesiones largas
128k output tokensSalidas más largas en una sola solicitud
Claude in PowerPointResearch preview (Max, Team, Enterprise)

Precios: Sin cambios a 5/5/25 por millón de tokens (input/output). Precios premium más allá de 200k tokens (10/10/37.50).

Disponibilidad: claude.ai, API (claude-opus-4-6), y todas las plataformas cloud principales.

Blogs de ingeniería: ruido de infraestructura y compilador C

Anthropic publica dos artículos técnicos el mismo día. El primero cuantifica el ruido de infraestructura en los benchmarks de agentic coding: en Terminal-Bench 2.0, la configuración de recursos por sí sola puede crear brechas de 6 puntos porcentuales entre configuraciones. El segundo documenta la construcción de un compilador C en Rust por 16 agentes Claude en paralelo: 100,000 líneas de código, capaz de compilar el kernel Linux 6.9 en x86, ARM y RISC-V, en ~2,000 sesiones de Claude Code por ~$20,000.

Opus 4.6 en GitHub Copilot

El mismo día, Claude Opus 4.6 está disponible en GA en GitHub Copilot a través de Agent HQ, después de la vista previa pública anunciada el día anterior.

🔗 Anuncio de Opus 4.6 | Ruido de infraestructura | Construyendo un compilador C


GPT-5.3-Codex: coding frontier + conocimientos pro

5 de febrero — OpenAI lanza GPT-5.3-Codex, que fusiona el rendimiento de codificación de GPT-5.2-Codex con las capacidades de razonamiento de GPT-5.2, todo un 25% más rápido.

BenchmarkPuntuación
SWE-Bench Pro (Público)56.8%
Terminal-Bench 2.077.3%
OSWorld-Verified64.7%
GDPval (victorias o empates)70.9%
Cybersecurity CTF77.6%
SWE-Lancer IC Diamond81.4%

GPT-5.3-Codex es el primer modelo que ha contribuido a su propia creación: el equipo utilizó versiones preliminares para depurar el entrenamiento, gestionar el despliegue y analizar los resultados de las pruebas.

Más allá del código

El modelo produce presentaciones, hojas de cálculo, análisis de datos y gestiona tareas de productividad en un entorno de escritorio (64.7% en OSWorld-Verified).

Ciberseguridad: alta capacidad

GPT-5.3-Codex es el primer modelo clasificado como de alta capacidad para la ciberseguridad en el marco de preparación de OpenAI, y el primero entrenado específicamente para identificar vulnerabilidades de software.

🔗 Blog GPT-5.3-Codex | System Card


OpenAI: Frontier, MCP Apps, seguridad y biotecnología

OpenAI Frontier: plataforma de agentes enterprise

5 de febrero — OpenAI lanza Frontier, una plataforma para desarrollar, desplegar y gestionar agentes de IA en la empresa. Los agentes reciben un contexto empresarial compartido, permisos y aprenden de la experiencia.

AspectoDetalle
Primeros clientesHP, Intuit, Oracle, State Farm, Thermo Fisher, Uber
Socios de IAAbridge, Clay, Ambience, Decagon, Harvey, Sierra
EnfoqueForward Deployed Engineers (FDE) integrados en los equipos
EstándaresEstándares abiertos, compatible con sistemas existentes

ChatGPT: MCP Apps en beta

5 de febrero — Las MCP Apps llegan en beta a ChatGPT Business, Enterprise y Edu. Nuevos conectores de socios: Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte y otros. Las organizaciones pueden construir apps MCP personalizadas a través del modo desarrollador.

Trusted Access for Cyber

5 de febrero — OpenAI lanza Trusted Access for Cyber, un programa piloto de acceso basado en la confianza para capacidades cibernéticas avanzadas. Los usuarios pueden verificar su identidad en chatgpt.com/cyber. Se asignan 10 millones de dólares en créditos de API a la ciberdefensa a través del Cybersecurity Grant Program.

GPT-5 reduce el costo de síntesis de proteínas

5 de febrero — En asociación con Ginkgo Bioworks, OpenAI conecta GPT-5 a un laboratorio robótico para optimizar la síntesis de proteínas libre de células (CFPS). Resultado: 40% de reducción en el costo de producción y 57% de mejora en el costo de los reactivos, después de 36,000 composiciones probadas en 580 placas automatizadas en seis rondas de experimentación.

🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 proteínas


Google: Gemini 3, Super Bowl y NotebookLM

Gemini 3: actualizaciones y Super Bowl

5-6 de febrero — Google impulsa Gemini 3 en todos los frentes. Gemini 3 Flash, lanzado recientemente, ofrece un razonamiento de nivel Pro a la velocidad de Flash: 90.4% en GPQA Diamond y 33.7% en Humanity’s Last Exam (sin herramientas). Gemini 3 se convierte en el modelo predeterminado para las AI Overviews en Google Search.

Google también prepara un anuncio de Gemini de 60 segundos para el Super Bowl LX (8 de febrero) — el spot “New Home” muestra a un niño preparándose para una mudanza con la ayuda de Gemini, ilustrando las capacidades de búsqueda en Google Photos y la generación de imágenes.

NotebookLM: Infographics y Slide Decks

NotebookLM, ahora construido sobre Gemini 3, despliega Infographics y Slide Decks para usuarios Free y Pro. Los Slide Decks ya son el segundo output studio más popular. Los usuarios Ultra pueden eliminar la marca de agua.

🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics


GitHub: comentarios fijados en Issues

5 de febrero — GitHub lanza los comentarios fijados en Issues. Ahora es posible fijar un comentario en la parte superior de un issue desde el menú contextual. Una función solicitada desde 2017 para resaltar decisiones, actualizaciones y próximos pasos clave en hilos largos.

🔗 Changelog


Qué significa esto

El 5 de febrero de 2026 quedará como un día histórico: Anthropic y OpenAI lanzan simultáneamente sus modelos de codificación más avanzados. Claude Opus 4.6 domina los benchmarks de trabajo profesional y recuperación de información, mientras que GPT-5.3-Codex sobresale en codificación en terminal y uso de ordenadores. Ambos modelos reclaman el SOTA (State Of The Art) en Terminal-Bench 2.0 — el artículo de Anthropic sobre el ruido de infraestructura cobra todo el sentido.

Más allá de los modelos, la batalla de las plataformas se intensifica: OpenAI Frontier ataca la empresa con agentes desplegados en Oracle y Uber, mientras que Anthropic apuesta por el ecosistema de desarrolladores (GitHub, Xcode, Claude Code). Google avanza en todos los frentes con Gemini 3 en Search, Chrome y NotebookLM, y prepara el Super Bowl para anclar Gemini en el gran público.


Fuentes