Buscar

DiffusionGemma 4x más rápido, flujos de trabajo dinámicos de Claude Code en GA, Grok Voice #1 EVA-Bench

DiffusionGemma 4x más rápido, flujos de trabajo dinámicos de Claude Code en GA, Grok Voice #1 EVA-Bench

ai-powered-markdown-translator

Artículo traducido del fr al es con gpt-5.4-mini.

Ver proyecto en GitHub ↗

El 10 de junio de 2026 marca una jornada intensa: Google DeepMind lanza DiffusionGemma, una nueva arquitectura de generación de texto por difusión que alcanza 1 000 tokens por segundo en H100, optimizada de inmediato por NVIDIA para hardware local. En el ámbito de las herramientas para desarrolladores, Anthropic lleva los flujos de trabajo dinámicos de Claude Code a disponibilidad general con una recursividad de agentes de hasta 5 niveles, y xAI sitúa Grok Voice Think Fast 1.0 como número uno del benchmark EVA-Bench. GitHub, OpenAI, Perplexity y Cohere completan una jornada rica en anuncios.


DiffusionGemma: generación paralela de bloques de 256 tokens, 4x más rápida en GPU

10 de junio — Google DeepMind lanza DiffusionGemma, un modelo abierto experimental de 26 mil millones de parámetros (arquitectura Mezcla de Expertos, Mixture of Experts) publicado bajo licencia Apache 2.0. Su particularidad: en lugar de generar un token tras otro como cualquier modelo autorregresivo clásico, genera bloques enteros de 256 tokens simultáneamente aplicando el mismo principio iterativo de desruido que los modelos de difusión de imágenes.

Resultado: hasta 4x más rápido en GPU dedicada. El modelo solo activa 3,8 mil millones de parámetros durante la inferencia, lo que le permite caber en 18 GB de VRAM una vez cuantificado — accesible en GPU de consumo de gama alta. La atención bidireccional abre usos difíciles para los modelos autorregresivos: edición en línea, completado de código, secuencias de aminoácidos, grafos matemáticos.

NVIDIA ha optimizado de inmediato DiffusionGemma para sus GPU aprovechando los núcleos de cálculo tensorial (Tensor Cores), donde las arquitecturas autorregresivas quedan limitadas por el ancho de banda de memoria. Los rendimientos medidos en distintos equipos:

HardwareRendimiento
NVIDIA H100 (servidor)1 000 tokens/s
NVIDIA DGX Stationhasta 800 tokens/s
NVIDIA DGX Spark (local)150 tokens/s
GeForce RTX 5090 (cuantificado)700+ tokens/s
GeForce RTX 4090 (cuantificado)soporte llama.cpp próximamente

Los pesos están disponibles en Hugging Face con soporte inmediato en HF Transformers, vLLM y Unsloth. El modelo también se puede probar gratis en build.nvidia.com.

Importante: Google precisa explícitamente que la calidad de salida sigue siendo inferior a la de los modelos Gemma 4 estándar. DiffusionGemma está dirigido a desarrolladores que exploran flujos de trabajo locales interactivos — iteración rápida, edición en línea — y no a producción.

“DiffusionGemma is our new experimental open model with up to 4x faster output on dedicated GPUs. Instead of predicting word-by-word, it generates entire blocks of text simultaneously.”

🇪🇸 DiffusionGemma es nuestro nuevo modelo abierto experimental que ofrece una salida hasta 4 veces más rápida en GPU dedicada. En lugar de predecir las palabras una por una, genera bloques enteros de texto simultáneamente.@GoogleDeepMind en X

🔗 Anuncio de Google DeepMind · 🔗 Optimización de NVIDIA


Claude Code v2.1.172: flujos de trabajo dinámicos en disponibilidad general, subagentes recursivos de hasta 5 niveles

10 de junio — Anthropic anuncia que los flujos de trabajo dinámicos (dynamic workflows) de Claude Code pasan a disponibilidad general. Presentados en vista previa de investigación el 28 de mayo, permiten a Claude diseñar su propia orquestación y lanzar decenas o cientos de subagentes en paralelo para abordar tareas complejas de extremo a extremo.

La versión v2.1.172 del CLI, publicada el mismo día, introduce la capacidad clave asociada: los subagentes ahora pueden crear sus propios subagentes, hasta 5 niveles de anidación. Esa es la base técnica que hace operativos los flujos dinámicos a gran escala.

Casos de uso principales:

  • Búsqueda de errores a escala de un repositorio entero, auditorías de seguridad
  • Migraciones de código que afectan a miles de archivos (p. ej.: portado Zig→Rust de Bun en 11 días)
  • Verificación adversarial de un resultado antes de su entrega

Disponibilidad y condiciones:

ElementoDetalle
PlanesMax, Team, Enterprise (si lo activa el admin), API Claude
Plataformas cloudAmazon Bedrock, Vertex AI, Microsoft Foundry
ActivaciónComando Create a workflow o parámetro ultracode (esfuerzo xhigh)
Profundidad de subagentesHasta 5 niveles
Versión CLIv2.1.172

A tener en cuenta: los flujos de trabajo dinámicos consumen significativamente más tokens que una sesión estándar de Claude Code. Claude Code muestra una confirmación antes del primer lanzamiento. Los administradores Enterprise pueden desactivar la funcionalidad mediante los ajustes gestionados.

Otros cambios de v2.1.172: corrección del error de sesiones bloqueadas de forma definitiva con el contexto 1M sin créditos, barra de búsqueda en el navegador /plugin, Amazon Bedrock ahora lee la región AWS desde ~/.aws si AWS_REGION no está definido, numerosos correctivos de estabilidad para los agentes en segundo plano.

🔗 Anuncio @claudeai · 🔗 Blog Dynamic Workflows · 🔗 CHANGELOG


Grok Voice Think Fast 1.0 — número uno en EVA-Bench

10 de junio — xAI anuncia Grok Voice Think Fast 1.0, su modelo de voz que se sitúa en la frontera de Pareto del ranking EVA-Bench de ServiceNow AI Research. La frontera de Pareto significa que ningún otro sistema de la evaluación supera simultáneamente su precisión y la calidad de la experiencia de usuario.

xAI destaca tres características: un ritmo natural, una entonación adaptada al contexto y una calidez percibida similar a la humana. El modelo está disponible a través de la API de voz de xAI en x.ai/api/voice, a un precio presentado como sensiblemente inferior al de los competidores.

MétricaValor
Clasificación EVA-BenchFrontera de Pareto (número 1)
DisponibilidadAPI x.ai/api/voice
Posicionamiento de precioFracción del precio de los competidores (según xAI)

“Grok Voice offers state-of-the-art performance with human-like timing, tone, and warmth. And it’s a fraction the price of competitors.”

🇪🇸 Grok Voice ofrece un rendimiento puntero con un ritmo, un tono y una calidez semejantes a los de un humano. Y su precio es una fracción del de los competidores.@xai en X

🔗 Resultados EVA-Bench


NVIDIA Confidential Computing en Apple Private Cloud Compute (WWDC 2026)

9 de junio — Anunciada durante la WWDC 2026, esta integración tripartita Apple–NVIDIA–Google marca un hito estructural para la privacidad de la IA en la nube. Las GPU NVIDIA Blackwell con Confidential Computing ahora están integradas en la infraestructura Private Cloud Compute (PCC) de Apple, que se extiende más allá de los centros de datos de Apple hacia Google Cloud.

El objetivo: procesar las solicitudes de Apple Intelligence del lado del servidor con una garantía de privacidad criptográfica absoluta — nadie, ni siquiera los constructores del sistema, puede acceder a los datos, conversaciones o chats de los usuarios.

Mecanismos de protección:

  • Confianza anclada en el hardware (hardware-rooted trust): verificación de que la infraestructura no ha sido alterada
  • Canales de comunicación cifrados entre los componentes
  • Atestación remota (remote attestation): el software verifica el estado de seguridad de la plataforma antes de transferir datos sensibles
  • Soporte de inferencia acelerada sin comprometer el rendimiento de la GPU

Esta arquitectura permite a Apple ampliar Apple Intelligence en Google Cloud manteniendo sus compromisos de privacidad — una combinación poco común en la industria. Para NVIDIA, supone una adopción a gran escala de Confidential Computing Blackwell en un despliegue de consumo.

🔗 Blog de NVIDIA


Anthropic: agentes planificados, bóvedas de secretos y marco regulatorio

Claude Managed Agents — despliegues planificados y bóvedas de variables

9 de junio — Dos nuevas funciones llegan en beta pública a Claude Managed Agents, anunciadas durante Code with Claude Tokyo:

Despliegues planificados (scheduled deployments): los agentes ahora pueden ejecutarse automáticamente según un calendario, sin intervención manual — informes diarios, verificaciones periódicas, pipelines de datos regulares.

Variables en bóvedas (vaults): los agentes acceden a sus secretos y configuraciones a través de una bóveda gestionada, sin exponer las claves en el código o en las configuraciones de sesión.

FuncionalidadEstado
Despliegues planificadosBeta pública
Variables en bóvedasBeta pública
PlataformaClaude Managed Agents

🔗 What’s new in Claude Managed Agents

Policy on the AI Exponential — marco regulatorio de Anthropic

10 de junio — Anthropic publica Policy on the AI Exponential, un marco de política pública acompañado de un ensayo de Dario Amodei. La constatación: las capacidades de la IA avanzan a un ritmo exponencial que el proceso legislativo no fue diseñado para seguir.

El documento se dirige a modelos entrenados con más de 10²⁵ operaciones en coma flotante (FLOP), desarrollados por empresas que generan más de USD 500 millones en ingresos relacionados con la IA o que gastan más de USD 1 mil millones en I+D de IA. Identifica cuatro categorías de riesgos catastróficos: riesgo biológico, cibernético, pérdida de control sobre los sistemas de IA y automatización de la propia I+D en IA.

Obligación propuestaDescripción
TransparenciaPruebas obligatorias, publicación de resultados
Evaluación independienteAl menos un evaluador externo cualificado
SeguridadProtección de los pesos frente a actores estatales
Autoridad gubernamentalPoder para bloquear o diferir modelos peligrosos

“AI is advancing at a pace our policymaking institutions were never built for—and the gap between the two is becoming the central challenge of the technology.”

🇪🇸 La IA avanza a un ritmo para el que nuestras instituciones legislativas no fueron concebidas — y la brecha entre ambas se está convirtiendo en el reto central que plantea esta tecnología.@AnthropicAI en X

🔗 Policy on the AI Exponential


GitHub Copilot: app abierta a todos, sesiones de agente visibles y revisión de seguridad en CLI

Copilot App — technical preview abierta sin lista de espera

10 de junio — La technical preview de la aplicación GitHub Copilot ya está disponible para todos los suscriptores Copilot Pro, Pro+, Max, Business y Enterprise, sin lista de espera. Esta aplicación de escritorio diseñada para agentes centraliza la gestión de las sesiones de agente, la creación de pull requests y el control de tareas de desarrollo desde el escritorio — del ticket a la PR en un solo lugar.

🔗 Anuncio @github

Copilot Chat ahora ve las sesiones de agente

10 de junio — GitHub mejora la transición entre Copilot Chat y la nube de agentes. Dos nuevas herramientas están disponibles en Copilot Chat: Get agent logs (registros de una sesión de agente sobre una pull request, consultables directamente en la conversación) y Session search (búsqueda y síntesis de sesiones pasadas por tema, título o fecha). El estado de una sesión en curso ahora se refleja en tiempo real en el chat.

🔗 Changelog

Copilot CLI — comando /security-review (public preview experimental)

10 de junio — Un nuevo comando slash /security-review está disponible en public preview experimental en GitHub Copilot CLI. Analiza los cambios de código locales directamente desde el terminal: inyecciones (SQL, comandos), XSS, gestión no segura de datos, path traversal, criptografía débil. Los resultados se puntúan por severidad y confianza, con sugerencias aplicables sin salir del terminal. El comando es independiente de GitHub code scanning y Dependabot — los complementa con un análisis ligero bajo demanda.

🔗 Changelog

Manus — Zoom Connector

9 de junio — Manus lanza el conector Zoom, permitiendo al agente analizar automáticamente el contenido de las reuniones accesibles desde la cuenta conectada: resúmenes, transcripciones, grabaciones, notas, agendas, pizarras, información de los participantes. Tres casos de uso principales: análisis bajo demanda de una reunión, revisión recurrente automática con informe en Slack o email, y análisis de tendencias en varias reuniones. Limitación: Manus solo accede a los recursos que la cuenta Zoom conectada tiene permiso para ver.

🔗 Manus Blog


xAI y Kimi: asociaciones y agentes swarm

Grok + eToro — Agente Tori impulsado por los datos de X en tiempo real

10 de junio — xAI y eToro anuncian que Tori, el agente de IA de eToro (40 millones de usuarios en 75 países), ahora integra los modelos xAI y los datos en tiempo real de la plataforma X para analizar el sentimiento del mercado (market sentiment). Tori puede leer la evolución del sentimiento en tiempo real, seguir señales en directo y analizar la información. La misma inteligencia en tiempo real está disponible para todos los desarrolladores a través de la consola API de xAI.

🔗 xAI News

Kimi Agent Swarm — Predicción de los 104 partidos de la Copa del Mundo 2026

9 de junio — Kimi (Moonshot AI) despliega 300 subagentes en paralelo para predecir los 104 partidos de la Copa del Mundo FIFA 2026. Cada agente dispone de su propio enfoque analítico: táctica, forma de los jugadores, datos históricos, sentimiento público, clima, psicología, movimientos de cuotas. El sistema utiliza modelos Elo/FIFA, Poisson/Dixon-Coles, simulaciones Monte Carlo y actualización bayesiana dinámica. Señal identificada: probabilidad de título de Alemania estimada en ~11,3 % frente a ~7,4 % en los mercados de apuestas.

🔗 Anuncio @Kimi_Moonshot


OpenAI Codex: migración desde Claude Code y showcase de Ableton

Codex app 26.608 — Migración desde Claude Code y rediseño de plugins

9 de junio — La actualización Codex app 26.608 introduce un flujo de migración (Migrate to Codex) que permite importar automáticamente la configuración desde Claude Code y Claude Cowork, incluso en el primer inicio de la aplicación. La interfaz de plugins ha sido completamente rediseñada con pestañas separadas, un marketplace con filtros por categoría y una navegación por teclado mejorada. La búsqueda en los ajustes se amplía a Git y a las personalizaciones visuales.

FuncionalidadDetalle
Migración Claude Code/CoworkImportación automática, incluido el onboarding
Pantalla de pluginsPestañas, marketplace, filtros por categoría
Búsqueda en ajustesAmpliada a Git, personalizaciones visuales

🔗 Codex Changelog


Perplexity y Cohere: orquestación multimodelo y benchmark vocal

Perplexity Computer integra Claude Fable 5 como orquestador

10 de junio — Perplexity anuncia la integración de Claude Fable 5 como modelo orquestador en Perplexity Computer, su interfaz agéntica multinivel. Esta integración está reservada a los suscriptores Pro y Max.

🔗 Anuncio @perplexity_ai

Cohere Transcribe número 1 en el benchmark Far-Field ASR de Hugging Face

10 de junioCohere Transcribe, el modelo de reconocimiento de voz de código abierto de Cohere, ocupa el primer puesto en el nuevo benchmark Far-Field ASR de Hugging Face, diseñado para probar la robustez en entornos de audio reales (salas de reuniones, centros de contacto, llamadas telefónicas).

ModeloWER Far-Field ASR
Cohere Transcribe17,9
IBM Granite Speech~19,8
NVIDIA Parakeet~21,5

El modelo sigue bajo licencia Apache 2.0 y puede ejecutarse localmente. Ya ocupaba el primer puesto en el leaderboard generalista OpenASR en marzo de 2026.

🔗 Anuncio @cohere


Gemini App : nuevas funciones para las pequeñas empresas

10 de junio — Durante el evento Google for Brazil en São Paulo, Google anuncia dos funciones de Gemini App dirigidas a las pequeñas empresas, con un despliegue global previsto para junio de 2026.

Conexión con Google Business Profile: los usuarios conectan su perfil directamente en la aplicación Gemini. Una vez conectado, Gemini accede a las reseñas de clientes, preguntas y datos de rendimiento para ofrecer recomendaciones personalizadas: análisis mensual del rendimiento, redacción de respuestas a reseñas con la voz de la marca, actualización de horarios y del perfil.

Business notebooks: un espacio centralizado donde la empresa organiza sus intercambios, fuentes y perfil de Google Business. Gemini lo usa como base de conocimiento para mantener la continuidad de las conversaciones y proponer alertas proactivas (pregunta de una clienta sin respuesta, horarios festivos no especificados).

🔗 Blog de Google


Breves

  • Caída de Gemini el 10 de junio — El director de producto Josh Woodward informa de una interrupción del servicio a las 19:31, con correcciones parciales ya desplegadas. 🔗 @joshwoodward
  • GitHub Enterprise — 500 centros de coste — El límite de centros de coste por empresa pasa de 250 a 500, automáticamente y sin configuración requerida. 🔗 Changelog
  • Dependabot admite Deno — Las actualizaciones de versión de Deno están compatibles mediante una entrada deno en .github/dependabot.yml (por ahora no se cubren las actualizaciones de seguridad). 🔗 Changelog
  • npm v12 — cambios incompatibles en julio de 2026 — Los scripts de instalación, las dependencias Git y las URL remotas se bloquearán de forma predeterminada. Se recomienda actualizar a npm 11.16.0+ para anticiparse. 🔗 Changelog
  • Alibaba Wan — Fisheye Lens — Nueva herramienta que transforma imágenes estándar en vistas circulares ultra gran angular estilo ojo de pez, añadida a la galería de capacidades visuales de Wan. 🔗 @Alibaba_Wan
  • Z-Image-Engineer-V6 — Codificador de texto intercambiable para Z-Image-Turbo (Tongyi Lab / Alibaba), que transforma prompts simples en descripciones cinematográficas. Disponible en Hugging Face. 🔗 @Ali_TongyiLab
  • Qwen-Image-Edit-2511 + LoRA — Nuevo espacio comunitario de Hugging Face para Qwen-Image-Edit-2511 con una matriz LoRA versátil (cambio de rostro, poses, prueba virtual, renderizado multiángulo). 🔗 @Ali_TongyiLab
  • ChatGPT for iOS 1.2026.153 — Nuevas funciones de Codex Mobile — worktrees, /goal.
  • Codex en Ableton Live — @OpenAIDevs destaca al músico @sound4movement, que usa Codex para configurar automáticamente Ableton Live a partir de una descripción de la pista. 🔗 @OpenAIDevs
  • Cohere Labs — IA y futuro del trabajo — Publicación de un informe sobre las lagunas de evidencia en el debate sobre el impacto de la IA en el empleo, inaugurando una nueva dirección de investigación. 🔗 @cohere

Qué significa esto

Nuevas arquitecturas de inferencia: ¿el fin del token por token? DiffusionGemma es la primera demostración pública a gran escala de una arquitectura de difusión textual abierta, y el interés inmediato de NVIDIA —que optimizó el modelo el mismo día de su lanzamiento— confirma que esta dirección se toma en serio a nivel industrial. La ganancia de 4x en GPU dedicada no es anecdótica: desplaza el cuello de botella del ancho de banda de memoria (el gran problema de la autorregresión) hacia los núcleos de cálculo tensorial. La limitación actual (calidad inferior a Gemma 4) y el enfoque explícito en los desarrolladores más que en la producción señalan que se trata de una línea de investigación, no de un reemplazo inmediato —pero el benchmark Pareto de Grok Voice en EVA-Bench, en un dominio distinto (voz), muestra que la carrera por la eficiencia ya se está librando en varios frentes arquitectónicos en paralelo.

Autonomía agéntica: de la promesa a la infraestructura. La GA de los flujos de trabajo dinámicos de Claude Code con recursividad a 5 niveles, combinada con los despliegues programados y las bóvedas de secretos de Claude Managed Agents, materializa un cambio de paradigma: los agentes ya no son herramientas de uso único, sino procesos persistentes, programables, con acceso seguro a los secretos. La iniciativa Kimi Agent Swarm (300 subagentes en 104 partidos) ilustra el mismo movimiento del lado de Moonshot AI. Y Perplexity Computer, que integra Claude Fable 5 como orquestador, señala que la competencia en agentes se juega tanto al nivel de las herramientas como de los propios modelos.

Privacidad y confianza: el eje Apple–NVIDIA–Google. La integración de NVIDIA Confidential Computing en Apple PCC sobre Google Cloud es estructuralmente significativa: muestra que un despliegue para el gran público puede combinar aceleración GPU, garantías criptográficas de confidencialidad e infraestructura cloud de terceros. No es un nicho: Apple Intelligence llega a cientos de millones de dispositivos. Si esta arquitectura se normaliza, podría convertirse en un estándar de facto para los servicios de IA que tratan datos personales sensibles.

Ecosistema de desarrollo: consolidación y competencia en las herramientas. El hecho de que Codex 26.608 proponga un flujo de migración desde Claude Code no es trivial: reconoce que los desarrolladores han invertido su configuración en herramientas competidoras y que hay que reducir el coste de transición. GitHub Copilot, por su parte, acelera en el enfoque “agent-native” (app sin lista de espera, sesiones de agente visibles en el chat, revisión de seguridad en CLI). La jornada del 10 de junio dibuja un ecosistema en el que la diferenciación se juega menos en las capacidades brutas de los modelos que en la profundidad de integración en los flujos de trabajo diarios de desarrollo.


Fuentes