GPT-5.4 con uso de la computadora nativo, NotebookLM Cinematic Videos, Codex en Windows

La semana termina con varias anuncios significativos: GPT-5.4 de OpenAI consolida el uso de la computadora nativo con 75 % en OSWorld y una ventana de contexto de un millón de tokens, NotebookLM introduce los Cinematic Video Overviews donde Gemini actúa como director, y Codex amplía su soporte a Windows con un bac à sable (sandbox) nativo. En cuanto a herramientas para desarrolladores, Anthropic mejora el skill-creator y lanza los HTTP hooks en Claude Code, y GitHub activa Copilot Memory por defecto para todos los usuarios Pro.

GPT-5.4 — Uso de la computadora nativo, 1M tokens, herramienta de búsqueda

5 de marzo de 2026 — OpenAI lanza GPT-5.4, su modelo frontier para el trabajo profesional. Disponible en ChatGPT (bajo el nombre GPT-5.4 Thinking), en la API (identificador gpt-5.4) y en Codex, este modelo consolida en una sola arquitectura las capacidades de razonamiento, de codificación y de flujos de trabajo agentic (agentic workflows) introducidas en modelos previos.

La novedad técnica más significativa es la integración nativa del uso de la computadora: GPT-5.4 puede operar interfaces gráficas mediante capturas de pantalla y teclado/ratón sin plugins de terceros. En OSWorld-Verified — el benchmark de referencia para la interacción con interfaces de software reales — GPT-5.4 alcanza 75,0 %, frente a 47,3 % para GPT-5.2. La ventana de contexto pasa a 1 millón de tokens en Codex y en la API.

Otra novedad notable es el tool search: en lugar de recibir la lista completa de herramientas disponibles en cada llamada, el modelo recibe una lista ligera y busca herramientas bajo demanda. OpenAI mide una reducción del 47 % en el consumo de tokens en flujos de trabajo con muchas herramientas (probado en Scale MCP Atlas). El modo /fast en Codex gana 1,5× en velocidad a igual inteligencia.

Benchmarks :

Evaluación	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval (trabajo profesional)	83,0 %	70,9 %	70,9 %
SWE-Bench Pro	57,7 %	56,8 %	55,6 %
OSWorld-Verified (computer use)	75,0 %	74,0 %	47,3 %
BrowseComp (búsqueda web)	82,7 %	77,3 %	65,8 %
Toolathlon (uso de herramientas)	54,6 %	51,9 %	46,3 %
ARC-AGI-2 (razonamiento abstracto)	73,3 %	—	52,9 %

Tarifas API :

Modelo	Entrada	Salida
gpt-5.2	1,75 $ / M tokens	14 $ / M tokens
gpt-5.4	2,50 $ / M tokens	15 $ / M tokens
gpt-5.2-pro	21 $ / M tokens	168 $ / M tokens
gpt-5.4-pro	30 $ / M tokens	180 $ / M tokens

GPT-5.4 Thinking está accesible desde hoy para suscriptores de ChatGPT Plus, Team y Pro. GPT-5.2 Thinking permanecerá disponible en «Legacy Models» hasta el 5 de junio de 2026. En materia de seguridad, OpenAI clasifica GPT-5.4 como «High cyber capability» en su marco de preparación (Preparedness Framework). La compañía publica simultáneamente CoT-Control, una suite de evaluación open source que mide la controlabilidad de la cadena de pensamiento de 13 modelos frontier — las puntuaciones, bajas (0,1 % a 15,4 %), indican que la supervisión de las cadenas de pensamiento sigue siendo una herramienta de seguridad fiable.

🔗 Presentación de GPT-5.4 | OpenAI

NotebookLM — Cinematic Video Overviews

4 de marzo de 2026 — NotebookLM introduce los Cinematic Video Overviews en su Studio. Estos vídeos van más allá de los Audio Overviews (formato podcast) lanzados en 2024 y de las plantillas (templates) de vídeo estándar.

El principio: Gemini se posiciona como director. El modelo analiza las fuentes del usuario, decide el formato más apropiado (tutorial, documental, etc.), elige un estilo visual, genera las imágenes y luego las autocrítica antes de producir la versión final. El resultado es un vídeo inmersivo y personalizado, único para cada conjunto de fuentes.

La funcionalidad está disponible para suscriptores de Google AI Ultra, en inglés, desde el 4 de marzo de 2026. El despliegue completo a los usuarios Ultra fue confirmado el mismo día. Se prevé acceso para suscriptores Pro en la hoja de ruta, sin calendario preciso. El tuit de anuncio obtuvo 3 millones de visualizaciones.

🔗 Anuncio de NotebookLM en X

OpenAI — Codex en Windows, investigación CoT-Control

Codex disponible en Windows

4 de marzo de 2026 — La aplicación Codex ya está disponible en Windows, con un bac à sable de agente nativo y soporte para entornos de desarrollo Windows vía PowerShell. Dos nuevas habilidades (skills) están disponibles: $aspnet-core para aplicaciones Blazor, ASP.NET MVC y Razor Pages, y $winui-app para aplicaciones Windows nativas con WinUI 3.

🔗 @OpenAIDevs en X

Investigación — controlabilidad de la cadena de pensamiento

5 de marzo de 2026 — OpenAI publica «Les modèles de raisonnement peinent à contrôler leurs chaînes de pensée, et c’est une bonne chose» (Reasoning models struggle to control their chains of thought, and that’s good). La suite de evaluación open source CoT-Control mide la controlabilidad de la cadena de pensamiento de 13 modelos frontier. Las puntuaciones varían entre 0,1 % y 15,4 %, lo que indica que los modelos actuales tienen dificultades para modificar deliberadamente su razonamiento para eludir los sistemas de supervisión — resultado presentado como positivo para la seguridad. OpenAI planea incluir estas métricas en las fichas de sistema (system cards) de futuros modelos.

🔗 Investigación CoT-Control | OpenAI

Anthropic — Skill-creator y HTTP hooks

Skill-creator mejorado

3 de marzo de 2026 — Anthropic publica una actualización mayor de su herramienta skill-creator para Claude Code y Claude.ai. El anuncio introduce dos tipos formales de habilidades (Agent Skills):

Tipo	Descripción	Durabilidad
Capability uplift	Ayuda a Claude a hacer algo que todavía no sabe hacer bien	Puede quedarse obsoleta si el modelo mejora
Encoded preference	Codifica los procesos y preferencias de un equipo	Duradera, depende de la fidelidad al flujo de trabajo real

Las nuevas funcionalidades: evals (tests automatizados) para verificar que una habilidad produce el resultado esperado, modo benchmark para medir la tasa de éxito, el tiempo y el consumo de tokens, y soporte multi-agente para ejecutar las evaluaciones en paralelo sin contaminación cruzada entre pruebas. Un modo comparador A/B permite confrontar dos versiones de una habilidad. El skill-creator está disponible desde ahora en Claude.ai y Cowork; para Claude Code se instala como plugin.

🔗 Mejorando skill-creator: probar, medir y refinar Agent Skills

HTTP hooks en Claude Code

4 de marzo de 2026 — Claude Code lanza los HTTP hooks, una alternativa a los hooks de comando (command hooks) existentes. En lugar de ejecutar un script shell local, Claude Code envía un evento a una URL elegida por el usuario y espera una respuesta. Casos de uso: construir una aplicación web para visualizar el progreso, gestionar permisos o sincronizar el estado entre varias instancias de Claude Code mediante una base de datos. Los HTTP hooks funcionan en plugins, agentes personalizados y en configuraciones empresariales gestionadas.

🔗 Tuit @dickson_tsai

Gemini CLI v0.32.0 — Generalist Agent por defecto

3 de marzo de 2026 — La versión 0.32.0 del Gemini CLI activa por defecto el Generalist Agent para mejorar la delegación y el enrutamiento de tareas. La actualización también aporta el pilotaje de modelo (Model Steering) directamente en el workspace, mejoras en el Plan Mode (apertura y modificación de planes en un editor externo, gestión de selección múltiple para tareas complejas), autocompletado interactivo en el shell y carga paralela de extensiones para un mejor rendimiento al inicio.

🔗 Registro de cambios Gemini CLI

GitHub Copilot — Memory por defecto, móvil y métricas

Copilot Memory activado por defecto

4 de marzo de 2026 — GitHub activa Copilot Memory por defecto para todos los usuarios de los planes Pro y Pro+. La funcionalidad, antes en vista previa y con suscripción voluntaria, permite a Copilot retener información persistente a nivel de repositorio: convenciones de codificación, patrones arquitectónicos, dependencias críticas.

Las memorias están estrictamente limitadas a un solo repositorio y se validan contra el código actual antes de aplicarse, lo que evita el uso de un contexto obsoleto. Expiran automáticamente tras 28 días. La funcionalidad está activa en el agente de codificación, la revisión de código y el CLI Copilot — los conocimientos descubiertos por un agente están inmediatamente disponibles para los demás. Los usuarios pueden desactivar Copilot Memory en sus ajustes (Settings > Features > Copilot Memory); los administradores Enterprise mantienen control total.

🔗 Copilot Memory ahora activado por defecto para usuarios Pro y Pro+

Notificaciones en vivo para agentes en GitHub Mobile

4 de marzo de 2026 — GitHub Mobile recibe notificaciones en tiempo real para sesiones de agentes Copilot. Los desarrolladores pueden seguir el progreso de sus agentes, tanto si la sesión se lanzó desde un ordenador como desde el teléfono.

🔗 GitHub Mobile | Anuncio en X

Grok Code Fast 1 en Copilot Free Auto

4 de marzo de 2026 — GitHub añade Grok Code Fast 1 de xAI a la selección automática de modelos (Auto) de Copilot Free. Este modelo ahora puede ser seleccionado por Copilot durante sesiones de chat en Visual Studio Code, Visual Studio, JetBrains IDEs, Xcode y Eclipse.

🔗 Grok Code Fast 1 en la selección automática de modelos de Copilot Free

Métricas Copilot CLI a nivel de usuario

5 de marzo de 2026 — GitHub amplía las métricas de uso de Copilot para incluir la actividad del CLI a nivel de usuario. Esta actualización sigue al lanzamiento de la semana anterior a nivel empresarial. Los administradores pueden ahora identificar a los usuarios activos en el CLI, consultar el número de solicitudes y sesiones, y seguir el consumo de tokens por usuario.

🔗 Métricas de uso de Copilot — actividad del CLI a nivel de usuario

Perplexity — GPT-5.4 y Voice Mode en Computer

GPT-5.4 Thinking disponible en Perplexity

5 de marzo de 2026 — GPT-5.4 y GPT-5.4 Thinking ya están accesibles en Perplexity para suscriptores Pro y Max. La versión Thinking activa el razonamiento extendido de GPT-5.4 para respuestas más profundas en consultas complejas.

🔗 Anuncio en X

Voice Mode en Perplexity Computer

4 de marzo de 2026 — Perplexity introduce un modo de voz (Voice Mode) en Perplexity Computer. La interfaz, que ya permitía buscar, codificar y desplegar proyectos, acepta ahora instrucciones de voz directamente.

🔗 Anuncio en X

Cohere × Aston Martin F1 — asociación plurianual

4 de marzo de 2026 — Cohere anuncia una asociación plurianual con el equipo Aston Martin Aramco F1. Cada miembro del equipo tendrá acceso a los modelos empresariales y a la plataforma de IA agentica de Cohere (North) para trabajar en uno de los entornos de datos más exigentes del deporte mundial. El logo de Cohere aparece en el monoplaza a partir del Gran Premio de Australia 2026.

🔗 Anuncio de Cohere en X

Black Forest Labs — Self-Flow, investigación multimodal

4 de marzo de 2026 — Black Forest Labs (creadores de FLUX) publica Self-Flow en research preview. Este enfoque entrena modelos generativos multimodales (imagen, vídeo, audio, texto) sin depender de modelos externos para la representación, mediante un método de flow matching auto-supervisado (self-supervised flow matching).

Resultados presentados: hasta 2,8× más rápido en convergencia cross-modal, mejor coherencia temporal en vídeo, y render tipográfico más nítido. Las demostraciones incluyen un modelo de vídeo de 4B parámetros entrenado en 6M vídeos, un modelo de imagen de 4B parámetros entrenado en 200M imágenes, y un modelo audio-vídeo conjunto. BFL posiciona Self-Flow como un camino hacia los world models: “Self-Flow opens a path toward world models: combining visual scalability with semantic abstraction for planning and understanding.”

🔗 Tuit @bfl_ml

En breve

Runway lanzó un hub de modelos unificados el 3 de marzo, centralizando el acceso a modelos de terceros de imagen, vídeo, audio y lenguaje directamente en la plataforma. 🔗 Anuncio

Claude alcanzó el 1.º puesto en la App Store iOS en 14 países simultáneamente el 5 de marzo — Australia, Austria, Bélgica, Canadá, Francia, Alemania, Irlanda, Italia, Nueva Zelanda, Noruega, Singapur, Suiza, Reino Unido, Estados Unidos. 🔗 Tuit

Manus publicó su carta anual el 5 de marzo con motivo de su primer aniversario, destacando testimonios de usuarios (una madre, un lingüista de 86 años, una florista). 🔗 Carta

Grok superó el umbral de un millón de reseñas en la App Store estadounidense. 🔗 Tuit @grok

Qué significa esto

GPT-5.4 confirma que el uso de la computadora pasa de ser experimental a una funcionalidad integrada en un modelo polivalente. La puntuación de 75 % en OSWorld-Verified y la reducción del 47 % de tokens gracias al tool search son medidas concretas de un cambio de paradigma: los agentes IA pueden ahora operar interfaces de software complejas sin infraestructura especializada.

En cuanto a herramientas para desarrolladores, la semana muestra una convergencia: Anthropic mejora la forma de probar y supervisar las habilidades de agentes, GitHub activa la memoria persistente para sus agentes de codificación, y Perplexity añade el modo de voz a su agente Computer. Los entornos de ejecución agentica (agentic runtimes) se enriquecen con capas de memoria, observabilidad (HTTP hooks, notificaciones móviles) e interacción natural (voz).

NotebookLM Cinematic Video Overviews ilustra un eje distinto: la generación de contenido pedagógico de formato largo a partir de fuentes personales. Gemini como director — analizar, criticar, recomponer — es un uso de la IA como meta-herramienta de producción creativa, más que como simple asistente de generación.

Fuentes - Presentando GPT-5.4 | OpenAI

Este documento ha sido traducido de la versión fr al idioma es utilizando el modelo gpt-5-mini. Para más información sobre el proceso de traducción, consulte https://gitlab.com/jls42/ai-powered-markdown-translator