ChatGPT Images 2.0 con thinking, Gemini Deep Research Max, NVIDIA x Adobe x WPP

El 21 de abril de 2026, tres anuncios importantes dominan la actualidad de la IA: OpenAI lanza ChatGPT Images 2.0 con su primer modelo de imagen capaz de razonar, Google DeepMind presenta dos agentes de búsqueda autónomos alimentados por Gemini 3.1 Pro, y NVIDIA consolida una asociación tripartita con Adobe y WPP en torno a agentes creativos para el marketing empresarial. Claude Code, Codex y Git 2.54 completan una jornada rica en actualizaciones de herramientas.

ChatGPT Images 2.0 y gpt-image-2

21 de abril — OpenAI lanza ChatGPT Images 2.0, disponible de inmediato para todos los usuarios de ChatGPT y de Codex. El modelo subyacente, gpt-image-2, está disponible simultáneamente vía la API.

Esta nueva versión marca un cambio respecto a la generación anterior: el seguimiento de instrucciones detalladas (instruction following) mejora de forma significativa, el posicionamiento y la relación precisa de los objetos son más fiables, la representación de texto denso se revisa, y varios formatos (vertical, horizontal, cuadrado) son compatibles de forma nativa.

El modo de reflexión (thinking) es la principal novedad. ChatGPT Images 2.0 es el primer modelo de imagen de OpenAI dotado de capacidades de razonamiento. En modo thinking, disponible para los suscriptores Plus, Pro y Business (Enterprise pronto), el modelo puede:

Buscar la web en tiempo real para información actualizada
Generar varias imágenes distintas a partir de un solo prompt
Autoverificarse y corregir sus propias salidas

Los equipos de investigación de OpenAI han detallado los casos de uso en un thread: representación multilingüe y texto preciso, diapositivas e infografías profesionales, múltiples formatos y resoluciones, seguimiento de instrucciones complejas.

Funcionalidad	Disponibilidad
ChatGPT Images 2.0 (estándar)	Todos los usuarios de ChatGPT y Codex
Modo thinking	ChatGPT Plus, Pro, Business (Enterprise pronto)
API gpt-image-2	Disponible desde ahora

La línea directriz de OpenAI para este lanzamiento: el modelo “pasa de la generación de imágenes al diseño estratégico, de una herramienta a un sistema visual.”

🔗 Introducir ChatGPT Images 2.0 🔗 Tweet @OpenAI

Google Deep Research y Deep Research Max

21 de abril — Google DeepMind lanza dos agentes de búsqueda autónomos alimentados por Gemini 3.1 Pro: Deep Research y Deep Research Max.

Estos agentes navegan tanto por la web abierta como por datos personalizados —documentos internos, información financiera especializada— para producir informes profesionales completamente citados.

Deep Research está optimizado para la velocidad y la baja latencia, ideal para interfaces que requieren respuestas rápidas. Deep Research Max aprovecha un tiempo de cálculo extendido (extended test-time compute) para razonar de forma iterativa, refinar las búsquedas y producir un informe de alta calidad —diseñado para procesos asíncronos en segundo plano.

Funcionalidad	Detalle
Soporte MCP	Conexión segura a fuentes propietarias o de terceros
Generación nativa de visuales	Primer agente que genera gráficos e infografías (HTML o Nano Banana 2)
Planificación colaborativa	El usuario puede afinar el plan de investigación antes de la ejecución
Multimodalidad	PDFs, CSVs, imágenes, audio, vídeo aceptados como entrada
Disponibilidad	API Gemini, terceros de pago, vista previa pública

La generación nativa de visuales es notable: Deep Research Max puede producir gráficos e infografías directamente en sus informes, en HTML o mediante Nano Banana 2, sin herramienta externa. Las startups y empresas de Google Cloud se beneficiarán de una disponibilidad anunciada próximamente.

🔗 Anuncio @GoogleDeepMind 🔗 Artículo blog.google

NVIDIA × Adobe × WPP — Agentes creativos para el marketing empresarial

20 de abril — NVIDIA amplía sus colaboraciones estratégicas con Adobe y WPP para desplegar agentes de IA autónomos en las operaciones de marketing empresarial. El anuncio viene acompañado de una demostración en vivo en la Adobe Summit el 21 de abril, con Jensen Huang (CEO de NVIDIA) y Shantanu Narayen (CEO de Adobe).

La nueva solución Adobe CX Enterprise Coworker está orquestada por agentes de IA basados en:

NVIDIA OpenShell: entorno de ejecución seguro, observable y auditable para workflows agenticos
NVIDIA Agent Toolkit y modelos Nemotron open-source
Adobe Firefly Foundry acelerado por la infraestructura NVIDIA AI

En la práctica, un retailer mundial puede ahora generar millones de combinaciones producto/audiencia/canal en cuestión de minutos en lugar de meses. Los gemelos digitales 3D (Omniverse + OpenUSD) sirven como identidades de producto persistentes para automatizar la producción de contenido de alta fidelidad a gran escala.

🔗 Artículo blogs.nvidia.com 🔗 Tweet @NVIDIAAI

Claude Code v2.1.116

19–21 de abril — Claude Code v2.1.116 aporta una serie de mejoras centradas en el rendimiento, la fiabilidad y la experiencia de terminal.

La actualización más tangible: el comando /resume es hasta un 67 % más rápido en sesiones grandes (40 Mo+), con una mejor gestión de las entradas “dead-fork”. El inicio MCP también es más rápido con varios servidores stdio configurados.

Experiencia de usuario:

El indicador de reflexión ahora muestra el progreso en línea (“still thinking”, “thinking more”, “almost done thinking”), reemplazando la línea de pista separada
/config puede buscar por valor de opción (por ejemplo: buscar “vim” encuentra el parámetro Editor mode)
/doctor puede abrirse mientras Claude responde, sin esperar al final del turno

Seguridad: el sandbox auto-allow ya no elude la verificación de rutas peligrosas para rm/rmdir que apuntan a /, $HOME u otros directorios del sistema críticos.

8 correcciones de terminal incluyen: protocolo de teclado Kitty (Ctrl+-, Cmd+Izquierda/Derecha), renderizado de scripts devanagari, bloqueo de Ctrl+Z mediante proceso wrapper, duplicación del scrollback en modo inline, y varias correcciones en VS Code/Warp/Ghostty.

Categoría	Cambio clave
Rendimiento	`/resume` 67 % más rápido en sesiones de 40 Mo+
UX	Thinking spinner progresivo, `/config` por valor
Seguridad	El sandbox respeta la protección de rutas críticas
Terminales	8 correcciones (Kitty, VS Code, Warp, Ghostty, WezTerm)
Plugins	Auto-instalación de dependencias faltantes

🔗 CHANGELOG Claude Code

Live Artifacts en Claude Cowork

20 de abril — Anthropic lanza los “Live Artifacts” en Claude Cowork: paneles y rastreadores dinámicos directamente conectados con las aplicaciones y archivos del usuario.

A diferencia de los artefactos clásicos (estáticos), los Live Artifacts se actualizan automáticamente al abrirse con los datos actuales. Se guardan en una nueva pestaña dedicada con historial de versiones, accesible desde cualquier sesión.

“In Cowork, Claude can now build live artifacts: dashboards and trackers connected to your apps and files. Open one any time and it refreshes with current data.”

🇪🇸 “En Cowork, Claude ahora puede crear artefactos dinámicos: paneles y rastreadores conectados a tus aplicaciones y archivos. Abre uno en cualquier momento y se actualizará con los datos actuales.” — @claudeai en X

La funcionalidad está disponible en todos los planes de pago mediante una actualización de la aplicación Claude.

🔗 Anuncio @claudeai

Codex en empresa: Codex Labs y 7 socios integradores

21 de abril — OpenAI da un nuevo paso en el despliegue empresarial de Codex: 4 millones de desarrolladores lo usan cada semana (frente a 3 millones a principios de abril, es decir, +33 % en dos semanas), y lanza simultáneamente Codex Labs así como un programa de asociaciones con 7 integradores globales.

Codex Labs lleva expertos de OpenAI directamente a las organizaciones para talleres prácticos y sesiones de trabajo, con el objetivo de ayudar a los equipos a pasar de un uso experimental a un despliegue reproducible.

Los 7 socios integradores (GSI): Accenture, Capgemini, CGI, Cognizant, Infosys, PwC y Tata Consultancy Services.

Empresa	Uso de Codex
Virgin Atlantic	Cobertura de tests, reducción de deuda técnica
Ramp	Aceleración de revisiones de código (code review)
Notion	Desarrollo rápido de nuevas funciones
Cisco	Comprensión de grandes repositorios interconectados
Rakuten	Respuesta a incidentes (incident response)

Codex se extiende ahora más allá del desarrollo de software: navegación en el navegador, generación de imágenes, memoria, orquestación de tareas transversales.

🔗 Escalar Codex para empresas de todo el mundo

Nano Banana Pro en Google AI Studio

20 de abril — Los suscriptores Google AI Pro y Ultra se benefician ahora de un acceso ampliado a Google AI Studio sin clave API requerida: acceso a Nano Banana Pro y a los modelos Gemini Pro con límites de uso aumentados.

Basta con iniciar sesión con la cuenta de suscriptor para pasar del prototipo a la producción. Esta evolución posiciona la suscripción Google AI como un puente práctico para los desarrolladores que desean experimentar sin la complejidad de la facturación por solicitud.

🔗 Anuncio @GoogleAI 🔗 Artículo blog.google

Kimi FlashKDA open-source

21 de abril — Moonshot AI publica en open source FlashKDA, su implementación CUTLASS de alto rendimiento de los kernels Kimi Delta Attention (KDA).

Métrica	Valor
Speedup prefill vs baseline	1,72× a 2,22× en H20
Integración	Backend drop-in para flash-linear-attention
Requisitos	SM90+, CUDA 12.9+, PyTorch 2.4+

FlashKDA funciona como un backend intercambiable (drop-in) para flash-linear-attention. La integración está disponible a través de la PR fla-org/flash-linear-attention#852.

🔗 Repo GitHub FlashKDA 🔗 Tweet @Kimi_Moonshot

Git 2.54

20 de abril — Git 2.54 está disponible con tres evoluciones estructurales.

git history (experimental) — Nueva subcomando para reescribir el historial sin pasar por git rebase -i:

git history reword <commit> : modificar el mensaje de un commit y reescribir las ramas en su lugar
git history split <commit> : dividir un commit en dos interactivamente

Config-based hooks — Los hooks ahora pueden definirse en los archivos de configuración de Git, no solo en .git/hooks. Esto permite compartir entre varios repositorios mediante ~/.gitconfig, varios hooks para el mismo evento y la desactivación individual mediante hook.<name>.enabled = false.

Geometric repacking por defecto — git maintenance utiliza ahora la estrategia geométrica por defecto, mejorando el rendimiento sin configuración adicional.

🔗 Destacados de Git 2.54 🔗 Tweet @github

Genspark Build en vista previa pública

21 de abril — Genspark lanza Genspark Build en vista previa pública (public preview): una herramienta para crear aplicaciones y sitios web impulsada por Claude Opus 4.7, que cubre todo el proceso de idea a maqueta de diseño, prototipo y código funcional.

Los usuarios Plus y Pro se benefician de 3 días de acceso sin crédito del 21 al 24 de abril (9h PT). Genspark precisa que lanza “rough edges and all” — la herramienta está en construcción activa.

Ese mismo día, Genspark también integra Lyria 3 Music en su AI Music Agent y Gemini 3.1 Flash TTS en su AI Audio Agent.

🔗 Tweet Genspark Build 🔗 Tweet Lyria 3 + TTS

Cohere — Investigación sobre el decodificado especulativo para modelos MoE

21 de abril — Cohere publica un artículo de investigación técnica sobre la optimización de los modelos de mezcla de expertos (Mixture-of-Experts, MoE) con decodificado especulativo (speculative decoding).

El equipo valida en sus modelos MoE en producción —incluido Command A (111 mil millones de parámetros)— una curva de ganancia no monótona según el tamaño de lote: las ganancias aumentan primero antes de disminuir. Se identifican dos mecanismos clave: la correlación temporal en el enrutamiento de expertos reduce entre un 20 y un 31 % el número de expertos únicos que cargar en memoria, y un amortiguamiento de los costes fijos explica las altas ganancias a BS=1.

🔗 Artículo de Cohere

Genspark Claw: Kimi K2.6 desde el día 0

21 de abril — Genspark integra Kimi K2.6 en su herramienta Claw desde el día del lanzamiento (Day 0), mediante una asociación con Fireworks AI que acompañó las fases de pre-lanzamiento y prueba.

🔗 Tweet @genspark_ai

Anthropic STEM Fellows Program

21 de abril — Anthropic lanza el programa STEM Fellows, dirigido a expertos en ciencias e ingeniería para trabajar junto a los equipos de investigación en proyectos de unos meses, con sede en San Francisco.

🔗 Anuncio @AnthropicAI

Qué significa esto

El 21 de abril marca una convergencia entre razonamiento y generación multimodal. gpt-image-2 ilustra una tendencia clara: los modelos generativos integran el razonamiento como capa de orquestación, no solo como mejora de calidad. El resultado es un modelo capaz de buscar, generar, verificar y corregir en una misma sesión.

Deep Research Max lleva la misma lógica al lado de la búsqueda: con soporte MCP, el agente puede acceder a datos propietarios estructurados, lo que abre la vía a workflows analíticos autónomos sin exportar datos sensibles a servicios de terceros.

La asociación NVIDIA × Adobe × WPP señala que la adopción empresarial de la IA creativa sale de la fase piloto. OpenShell como runtime auditable responde a una verdadera restricción de las grandes organizaciones: los agentes autónomos deben poder ser observados y trazados, no solo ser potentes.

En cuanto a herramientas, los config-based hooks de Git 2.54 son una evolución arquitectónica discreta pero importante: los hooks compartidos entre repositorios mediante ~/.gitconfig van a cambiar las prácticas de equipo para la estandarización de los workflows CI locales.

Fuentes - Presentando ChatGPT Images 2.0

Este documento ha sido traducido de la versión fr al idioma es utilizando el modelo gpt-5.4-mini. Para más información sobre el proceso de traducción, consulte https://gitlab.com/jls42/ai-powered-markdown-translator