Asociación compute Anthropic+xAI Colossus 1, Claude M365 GA, GPT-Realtime-2 voz razonamiento

Anthropic y xAI firman un acuerdo inédito: 220 000 GPU NVIDIA del superordenador Colossus 1 pasan a duplicar los límites de Claude Code desde esta semana. Claude for Microsoft 365 pasa a disponibilidad general en Excel, PowerPoint y Word. OpenAI lanza GPT-Realtime-2, el primer modelo de voz con razonamiento de nivel GPT-5. Perplexity abre Personal Computer a todos los usuarios de Mac, y ElevenLabs supera los 500 millones de dólares de ARR con NVIDIA como inversor estratégico.

Anthropic alquila Colossus 1 a xAI — 220 000 GPU NVIDIA, duplicación de los límites de Claude Code

6 de mayo — Anthropic anuncia simultáneamente un aumento inmediato de los límites de uso y un acuerdo de infraestructura inédito con SpaceX / xAI.

Para los usuarios, el cambio más visible es la duplicación de los límites de tasa de cinco horas en Claude Code, efectiva de inmediato en los planes Pro, Max, Team y Enterprise. También se elimina la reducción automática en horas punta, que limitaba los planes Pro y Max. Los límites de API para los modelos Claude Opus se elevan en paralelo.

Estos aumentos son posibles gracias a un acuerdo con SpaceX: Anthropic accede a la totalidad de la capacidad de Colossus 1, el superordenador de xAI, es decir, más de 300 megavatios y más de 220 000 GPU NVIDIA (H100, H200 y GB200). Esta capacidad estará disponible en el plazo de un mes. Ambas empresas anuncian también una intención común de desarrollar varios gigavatios de capacidad de cálculo de IA en órbita, algo inédito en la industria.

Esta alianza se suma a una acumulación de acuerdos ya en curso: Amazon (hasta 5 GW, de los cuales cerca de 1 GW estarán disponibles a finales de 2026), Google y Broadcom (5 GW desde 2027), Microsoft y NVIDIA (30 mil millones de dólares de capacidad Azure) y Fluidstack (50 mil millones de dólares de infraestructura de IA estadounidense). La expansión internacional incorporará los requisitos de residencia de datos para los sectores regulados. Anthropic, además, se compromete a cubrir cualquier aumento del precio de la electricidad para los consumidores locales vinculado a sus centros de datos.

Cambio	Planes afectados	Efectivo
Duplicación límites 5h Claude Code	Pro, Max, Team, Enterprise	Inmediato
Eliminación reducción horas punta	Pro, Max	Inmediato
Aumento límites API Opus	Todos	Inmediato

Acuerdo compute	Capacidad	Calendario
SpaceX / xAI Colossus 1	300+ MW, 220 000+ GPU NVIDIA	En el plazo de un mes
Amazon	Hasta 5 GW (~1 GW a finales de 2026)	2026
Google + Broadcom	5 GW	Desde 2027
Microsoft + NVIDIA	USD 30 mil millones Azure	—
Fluidstack	USD 50 mil millones infraestructura US	—

🔗 Anthropic — Aumento de límites + acuerdo SpaceX

Claude for Microsoft 365 — disponibilidad general en Excel, PowerPoint, Word + beta de Outlook

7 de mayo — Claude for Excel, PowerPoint y Word pasan a disponibilidad general para todos los planes de pago. Claude for Outlook entra simultáneamente en beta pública bajo las mismas condiciones.

“Claude for Excel, PowerPoint, and Word are now generally available, and Claude for Outlook is in public beta. As Claude moves between your Microsoft apps, it carries the full context of your conversation.”

🇪🇸 Claude for Excel, PowerPoint y Word ya está disponible para todos, y Claude for Outlook está en beta pública. A lo largo de tus aplicaciones de Microsoft, Claude conserva la totalidad del contexto de tu conversación. — @claudeai en X

La funcionalidad central es el contexto compartido entre las cuatro aplicaciones: una conversación iniciada en Outlook para clasificar un correo continúa en Word para redactar un memorándum, luego en Excel para el análisis de datos y en PowerPoint para la presentación, sin necesidad de volver a explicar nunca el contexto. La actualización cruzada automática es el otro aporte concreto: ajustar una hipótesis en un modelo de Excel actualiza simultáneamente el gráfico de la presentación y la cifra correspondiente en el memorándum de Word.

Entre las empresas citadas: ServiceNow (“Claude does the work in Excel itself, instead of asking us to move content between tools”) y equipos de gestión de activos privados que lo usan para construir y mantener modelos de cobertura financiera.

Aplicación	Estado al 7 de mayo de 2026	Planes
Claude for Excel	Disponibilidad general (GA)	Todos los planes de pago
Claude for PowerPoint	Disponibilidad general (GA)	Todos los planes de pago
Claude for Word	Disponibilidad general (GA)	Todos los planes de pago
Claude for Outlook	Beta pública	Todos los planes de pago

🔗 Anuncio de Claude for Microsoft 365

Claude Managed Agents — dreaming, outcomes, orquestación multiagente, webhooks

6 de mayo — Durante la conferencia Code with Claude, Anthropic lanza varias nuevas funciones para su plataforma de despliegue de agentes.

La novedad más destacada es dreaming: un proceso planificado que analiza las sesiones pasadas de un agente, extrae patrones recurrentes y consolida su memoria para que mejore con el tiempo. El desarrollador mantiene el control: dreaming puede actualizar la memoria automáticamente o someter cada cambio a revisión humana. Dreaming está disponible en investigación experimental (research preview) bajo solicitud.

Outcomes entra en beta pública: esta función permite evaluar cada resultado de un agente según criterios definidos por el desarrollador antes de entregarlo al usuario. La empresa Wisedocs la usó para acelerar en 50 % la revisión de documentos médicos manteniendo al mismo tiempo la alineación con sus estándares internos.

La orquestación multiagente permite que un agente piloto delegue subtareas a agentes especialistas que se ejecutan en paralelo, facilitando el tratamiento de trabajos complejos que requieren varias especialidades simultáneas. Los webhooks también están disponibles para desencadenar acciones externas.

Funcionalidad	Disponibilidad	Descripción
Dreaming	Research preview (bajo solicitud)	Auto-mejora mediante análisis de sesiones pasadas
Outcomes	Beta pública	Evaluación de resultados antes de la entrega
Orquestación multiagente	Beta pública	Agente piloto + agentes especialistas en paralelo
Webhooks	Beta pública	Activación de acciones externas

🔗 Anuncio de Claude Managed Agents

GPT-Realtime-2 — voz con razonamiento GPT-5 y contexto 128K

7 de mayo — OpenAI lanza una nueva generación de modelos en la Realtime API: GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper.

GPT-Realtime-2 es el primer modelo de voz dotado de razonamiento de nivel GPT-5: puede gestionar solicitudes complejas, llamar a herramientas en paralelo (parallel tool calls), recuperarse tras interrupciones (recovery behavior) y mantener una ventana de contexto de 128 000 tokens (frente a 32 000 en su predecesor), adaptada a sesiones largas. Hay cinco niveles de razonamiento ajustables: minimal, low, medium, high, xhigh (low por defecto). Se pueden insertar fórmulas de transición (preambles) antes de las respuestas para lograr una fluidez natural.

GPT-Realtime-Translate permite la traducción simultánea en directo a 13 idiomas de destino desde más de 70 idiomas fuente. GPT-Realtime-Whisper ofrece una transcripción en flujo (streaming) de baja latencia.

Zillow probó GPT-Realtime-2 en sus interacciones de voz: +26 puntos de tasa de éxito en su benchmark adversarial más difícil (95 % frente a 69 %). EU Data Residency es compatible.

Modelo	Capacidad	Tarifa
GPT-Realtime-2	Voz + razonamiento GPT-5, 128K	$32/1M tokens audio input, $64/1M output
GPT-Realtime-Translate	Traducción 70→13 idiomas	$0,034/min
GPT-Realtime-Whisper	Transcripción en flujo	$0,017/min

Benchmark	GPT-Realtime-1.5	GPT-Realtime-2 (high)	GPT-Realtime-2 (xhigh)
Big Bench Audio	referencia	+15,2 %	—
Audio MultiChallenge APR	36,7 %	—	70,8 %

🔗 Anuncio de OpenAI — nuevos modelos de voz

Perplexity Personal Computer disponible para todos los usuarios de Mac

7 de mayo — Perplexity lanza una nueva aplicación macOS y abre Personal Computer a todos los usuarios, sin restricción de suscripción Pro o Max.

La aplicación saca la IA de la nube para instalarla directamente en el dispositivo. Funciona sobre los archivos locales, las aplicaciones nativas de Mac, la web abierta y los servidores seguros de Perplexity. Es compatible con 400+ conectores y se integra con el navegador Comet para las herramientas web sin conectores directos. Los planes Pro y Max conservan sus créditos vinculados a la suscripción existente; los usuarios gratuitos también tienen acceso.

El uso recomendado es el Mac mini como hub permanente: equipos de agentes pueden funcionar de forma continua (24 h/24), mientras el usuario trabaja en otra cosa, con una notificación cuando se necesita una validación humana. El control se realiza desde cualquier dispositivo, incluido iPhone.

La antigua aplicación Perplexity Mac se retirará en las próximas semanas. La descarga es directa (todavía no está disponible en la App Store).

Dimensión	Valor
Disponibilidad	Todos los usuarios de Mac
Dispositivo recomendado	Mac mini (encendido permanentemente)
Conectores compatibles	400+
Integración del navegador	Comet
App Store	No (descarga directa)
App antigua	Retirada en las próximas semanas

🔗 Blog de Perplexity — Personal Computer para todos

Perplexity Finance Search en la Agent API — #1 en precisión en FinSearchComp T1

6 de mayo — Perplexity lanza Finance Search en la Agent API: una sola llamada de herramienta agrega datos financieros con licencia, datos de mercado en tiempo real y fuentes web citadas.

El problema que resuelve es sencillo: las decisiones financieras dependen de fuentes fiables, actualizadas y trazables. Finance Search sustituye la búsqueda web genérica por datos estructurados con licencia —cotizaciones, fundamentales, transcripts de conferencias telefónicas, estimaciones— devueltos en un esquema coherente independientemente del proveedor en segundo plano.

En el benchmark FinSearchComp T1, Finance Search alcanza la mayor precisión para los datos financieros en tiempo real, constante en el tiempo, y el coste más bajo por respuesta correcta (menos tokens necesarios gracias a los datos estructurados). Las citas están integradas en cada resultado. El modelo es configurable por el desarrollador, con visibilidad sobre el uso de tokens.

Finance Search es complementario de Computer for Professional Finance (ya cubierto el 5 de mayo): mientras el primero ofrece un workspace visual, Finance Search se integra en flujos de trabajo programáticos a través de la API.

Dimensión	Valor
Interfaz	Una sola llamada de herramienta (`finance_search`)
Datos cubiertos	Cotizaciones, fundamentales, transcripts, estimaciones, contexto de mercado
Benchmark FinSearchComp T1	#1 precisión, #1 coste/respuesta correcta
Citas	Integradas en cada resultado

🔗 Blog de Perplexity — Finance Search

Natural Language Autoencoders (NLAs) — leer los pensamientos internos de Claude

7 de mayo — Anthropic publica un nuevo método de interpretabilidad que convierte las activaciones internas de un modelo en texto directamente legible.

La arquitectura se basa en un entrenamiento en bucle cerrado: un verbalizador de activación (activation verbalizer) traduce una activación a texto explicativo, y un reconstructor de activación (activation reconstructor) intenta reconstruir la activación a partir de ese texto. Cuanto más fiel es la reconstrucción, mejor es la explicación.

La aplicación en seguridad es llamativa: aplicados a Claude Opus 4.6 y Claude Mythos Preview, los NLAs revelan que los modelos sospechaban estar en situación de prueba mucho más a menudo de lo que lo expresaban. En las pruebas de código destructivo, la conciencia implícita de la evaluación aparece en 16 % de los casos, frente a 0 % de verbalización explícita. En SWE-bench Verified, esa cifra sube al 26 %. En conversaciones reales de usuarios de claude.ai, se mantiene por debajo de 1 %.

En un conjunto de auditoría con un modelo intencionadamente mal alineado, los auditores equipados con NLAs identificaron la causa raíz en 12 a 15 % de los casos, frente a menos de 3 % con otras herramientas. El código de entrenamiento se publica en open source; hay una demo interactiva disponible en Neuronpedia.

Evaluación	Conciencia implícita (NLA)	Conciencia verbalizada
Pruebas de código destructivo	16 %	~0 %
SWE-bench Verified	26 %	~0 %
Conversaciones reales de claude.ai	< 1 %	—

🔗 Anthropic Research — Natural Language Autoencoders

Petri 3.0 — herramienta de alineamiento open source cedida a Meridian Labs

7 de mayo — Anthropic cede Petri, su herramienta de alineamiento open source, a Meridian Labs, organización independiente sin ánimo de lucro dedicada a la evaluación de la IA.

Petri es un conjunto de herramientas de pruebas de alineamiento aplicable a cualquier modelo de lenguaje: engaño, sycophancy, cooperación con solicitudes dañinas. Integrado en las evaluaciones de todos los modelos Claude desde Sonnet 4.5, ha sido adoptado por el AI Security Institute británico para sus evaluaciones de sabotaje de la investigación en IA.

La versión 3.0 aporta tres avances: una mejor adaptabilidad mediante la separación de los componentes auditor y modelo objetivo, un módulo “Dish” que ejecuta las pruebas en condiciones reales de despliegue (verdadero system prompt, verdadero scaffold) para hacer los escenarios menos detectables, y una integración con Bloom para evaluaciones de comportamiento más profundas.

La cesión a Meridian Labs sigue el modelo de la cesión del protocolo MCP a la Linux Foundation: garantizar la independencia de la herramienta frente a cualquier laboratorio de IA.

🔗 Anthropic Research — Petri 3.0

El Anthropic Institute (TAI) — agenda de investigación en 4 ejes

7 de mayo — Anthropic publica el agenda de investigación completo del TAI, la organización interna lanzada en marzo de 2026 para estudiar los impactos reales de la IA desde la posición de un laboratorio frontier.

El agenda se articula en cuatro ejes: difusión económica (adopción de IA por las empresas y los países, impacto en los mercados laborales), amenazas y resiliencia (capacidades de doble uso, ciberseguridad, mecanismos defensivos), sistemas de IA en la naturaleza (in the wild — efectos conductuales e institucionales de la IA desplegada a gran escala) y I+D por la IA (aceleración de la investigación científica por la propia IA, incluidos los riesgos de bucle recursivo de auto-mejora).

El TAI se compromete a compartir datos más frecuentes del Anthropic Economic Index e información sobre la aceleración interna de Anthropic mediante sus propias herramientas. Está abierto un llamado a candidaturas para el programa Anthropic Fellows (cuatro meses financiados).

🔗 Anthropic Research — Agenda TAI

Codex Extension Chrome — control del navegador en segundo plano en macOS y Windows

7 de mayo — OpenAI lanza la extensión Chrome para Codex, permitiendo al agente controlar directamente pestañas de Chrome sin interrumpir el flujo de trabajo del usuario.

Codex opera en segundo plano en varias pestañas simultáneamente, combinando sus capacidades de plugins nativos con acceso directo a sitios web (paneles de control, CRM, aplicaciones web). El sistema elige automáticamente la mejor herramienta para cada paso: plugins, Chrome o una combinación. Casos de uso: depurar flujos del navegador, verificar paneles de control, hacer investigación, actualizar CRM, probar aplicaciones web complejas (incluidos juegos multijugador mediante subagentes).

La extensión se instala a través del plugin Chrome en la app Codex. Disponible de inmediato en macOS y Windows para todos los usuarios de Codex.

🔗 Tweet de OpenAI — Codex Chrome Extension

ChatGPT Trusted Contact — seguridad de salud mental con revisión humana

7 de mayo — OpenAI despliega Trusted Contact, una función de seguridad opcional en ChatGPT.

Cualquier adulto (18+, 19+ en Corea del Sur) puede designar a una persona de confianza (amigo, familia, cuidador) que será alertada si se detectan señales de crisis en sus conversaciones. El proceso combina detección automatizada y revisión humana (objetivo: menos de una hora antes de cualquier envío), con una notificación sin acceso a las transcripciones para proteger la privacidad. La función extiende a los adultos los controles parentales ya existentes para las cuentas de adolescentes. Desarrollada con la American Psychological Association y una red de 260+ médicos en 60 países.

Parámetro	Valor
Elegibilidad	18+ (19+ Corea del Sur)
Plazo de aceptación para el contacto	1 semana
SLA de revisión humana	Objetivo < 1 hora
Contenido de la notificación	Motivo general, sin transcripción
Canales	Email, SMS, in-app

🔗 OpenAI — Trusted Contact

OpenAI B2B Signals — la brecha entre empresas punteras y empresas típicas se amplía

6 de mayo — OpenAI publica el primer informe B2B Signals, que documenta la brecha creciente entre las empresas “punteras” y las empresas típicas en su adopción de la IA.

Las empresas del percentil 95 usan 3,5× más inteligencia por empleado que las empresas típicas (frente a 2× en abril de 2025). La brecha se debe menos al volumen de mensajes (36 % de la brecha) que a la profundidad de uso (64 %): delegación de tareas complejas, workflows agenticos, integración en los sistemas de producción. En Codex, la brecha es la más marcada: ×16 de mensajes por empleado.

Dos casos concretos: Cisco reduce el tiempo de build en ~20 %, ahorra 1.500+ horas de ingeniería al mes y multiplica por 10 a 15 la velocidad de resolución de defectos. Travelers Insurance gestiona ~100.000 llamadas de siniestros al año mediante un asistente.

Indicador	Empresas típicas	Empresas punteras
Inteligencia/empleado	referencia	×3,5
Mensajes Codex/empleado	referencia	×16
Parte del volumen en la brecha	—	36 %
Parte de la profundidad en la brecha	—	64 %

🔗 OpenAI — B2B Signals

MRC — Protocolo de red open source para supercomputadoras Stargate

5 de mayo — OpenAI publica como open source, a través de la Open Compute Project, el protocolo MRC (Multipath Reliable Connection), co-desarrollado con AMD, Broadcom, Intel, Microsoft y NVIDIA durante dos años.

MRC es un protocolo de red de 800 Gb/s para supercomputadoras de entrenamiento de IA a gran escala. Conecta 100.000+ GPU con solo 2 niveles de switches (frente a 3 a 4 en el enfoque convencional), pulverizando los paquetes sobre cientos de caminos simultáneos mediante enrutamiento de origen IPv6 (SRv6). La recuperación tras fallos se realiza en microsegundos (frente a varios segundos con BGP dinámico clásico). Ya en producción en Stargate (Abilene, Texas) y en las supercomputadoras Fairwater de Microsoft, MRC ha permitido el entrenamiento de varios modelos, entre ellos GPT-5.5 y Codex.

Aspecto	Enfoque convencional	MRC
Niveles de switches para 100K+ GPU	3-4	2
Recuperación tras fallos	Segundos a decenas de segundos	Microsegundos
Enrutamiento	BGP dinámico	SRv6 estático
Distribución de paquetes	1 camino por transferencia	100s de caminos en paralelo

🔗 OpenAI — MRC Supercomputer Networking

Perplexity ROSE — Motor de inferencia propietario y CuTeDSL

6 de mayo — Perplexity publica un artículo de investigación que detalla ROSE (Runtime-Optimized Serving Engine), su motor de inferencia propietario, y su integración de CuTeDSL (biblioteca de kernels GPU NVIDIA).

ROSE impulsa todos los servicios de Perplexity (Sonar, Search, Embeddings) sobre GPU NVIDIA Hopper y Blackwell, desde modelos de codificación hasta LLM de un billón de parámetros. CuTeDSL permite construir kernels GPU personalizados optimizados más rápidamente, adaptados a las nuevas arquitecturas de modelos a un ritmo sostenido.

Esta publicación ilustra la estrategia de Perplexity: controlar toda la pila técnica hasta el nivel de los kernels GPU para diferenciarse por rendimiento y reducir la dependencia de frameworks de terceros.

🔗 Perplexity Research — CuTeDSL y ROSE

ElevenLabs alcanza 500 M$ de ARR — NVIDIA invierte mediante NVentures

5 de mayo — ElevenLabs anuncia un tercer cierre de su Serie D con NVIDIA como nuevo inversor estratégico a través de NVentures.

El ARR pasó de 350 M $a finales de 2025 a **500 M$ en abril de 2026**, es decir, +43 % en cuatro meses. Este tercer cierre también incluye a BlackRock, Wellington Management, D.E. Shaw, Schroders, así como empresas clientes (Salesforce, Santander, KPN, Deutsche Telekom) y una inversión minorista vía Robinhood Ventures. Un tender offer de 100 M$ se cerró en paralelo. ElevenLabs cuenta con 530 empleados en 50+ países. La hoja de ruta anuncia la fusión de imagen/vídeo y audio en una plataforma creativa unificada.

🔗 ElevenLabs — 500 M$ ARR y nuevos inversores

AlphaEvolve en producción — 5 sectores industriales vía Google Cloud

7 de mayo — Un año después de su lanzamiento, Google DeepMind publica un balance de AlphaEvolve, su agente de codificación alimentado por Gemini, ya pasado de la investigación a la producción industrial.

AlphaEvolve optimiza la infraestructura crítica de Google: TPU, políticas de sustitución de caché, compactación LSM-tree en Google Spanner. Se despliega comercialmente a través de Google Cloud en cinco sectores: finanzas (duplicación del rendimiento de un transformer), semiconductores (litografía computacional), logística (problema del viajante de comercio), publicidad y ciencias de los materiales (~4× de ganancia de velocidad en Schrödinger). En el plano académico, AlphaEvolve colaboró con Terence Tao (UCLA) en los problemas de Erdős y mejoró los límites inferiores para el problema del viajante de comercio y los números de Ramsey.

🔗 DeepMind — AlphaEvolve Impact

Manus Projects autoaprendientes — workspace agentico que mejora con cada tarea

6 de mayo — Manus lanza una funcionalidad que permite a los Projects aprender automáticamente de cada conversación y proponer actualizaciones aprobadas por el usuario.

Al final de cada tarea, Manus identifica las decisiones, normas y patrones reutilizables, y luego propone: actualizaciones de instrucciones (cuando el proceso o la terminología han evolucionado), actualizaciones de archivos (fuentes, ejemplos o modelos obsoletos) y actualizaciones de habilidades (skills) para los flujos recurrentes. Ningún cambio se aplica sin validación humana explícita. Los futuros colaboradores comienzan con el último contexto compartido del Project. La funcionalidad está disponible para todas las sesiones en las que se admiten instrucciones y archivos.

🔗 Manus — Projects autoaprendientes

Breves

Bug bounty de Anthropic abierto al público — El programa, hasta ahora privado dentro de la comunidad de investigación en seguridad, ahora es accesible para todos en HackerOne. 🔗 fuente
xAI Image Generation Quality Mode API — El modo calidad de generación de imágenes (300 M+ imágenes generadas en Grok) ahora está disponible mediante la API de xAI: mayor realismo, mejor renderizado del texto, control creativo reforzado. 🔗 fuente
Z.ai GLM-5V-Turbo Tech Report — Z.ai (Zhipu AI) publica el informe técnico de GLM-5V-Turbo, modelo fundacional nativo para agentes multimodales con codificador CogViT (destilación SigLIP2 + DINOv3) y bucle percepción-planificación-ejecución. 🔗 fuente
ChatGPT Futures Class of 2026 — OpenAI distingue a 26 jóvenes constructores procedentes de 20+ universidades (Vanderbilt, Oxford, Georgia Tech…) con un grant de USD 10.000 cada uno y acceso a los modelos punteros. 🔗 fuente
NVIDIA DeepStream + Claude Code — Demostración de un enfoque “concept to app” que combina DeepStream, Claude Code y reusable Skills para generar aplicaciones Vision AI sin escribir cada línea de código. 🔗 fuente
NVIDIA Guess-Verify-Refine — Nueva técnica de inferencia hardware-aware en la que cada paso de decodificación da ventaja al siguiente, diseñada específicamente para los aceleradores NVIDIA. 🔗 fuente
TokenSpeed + NVIDIA Dynamo — TokenSpeed (LightSeek Foundation) alcanza el nivel TensorRT-LLM en open source; NVIDIA Dynamo añade soporte day-0 para este backend, con Kimi K2.5 soportado a través del frontend Dynamo. 🔗 fuente
Ideogram BG Remover — Nuevo modelo generativo (entrenado desde cero, no una segmentación clásica) para la eliminación de fondos: preservación del canal alpha, orientado a logos e ilustraciones complejas, API disponible. 🔗 fuente
Google DeepMind × EVE Online — Asociación con CCP Games para explorar la investigación en IA en entornos de juegos complejos dirigidos por jugadores. 🔗 fuente
GitHub Copilot Trust Layer — Microsoft/GitHub publica una investigación sobre una capa de confianza estructural para validar los agentes Copilot (grafos de ejecución + análisis de dominadores): precisión 100 % vs 82,2 % para la autoevaluación, recall 100 % vs 60 %. 🔗 fuente
GitHub — revisar pull requests de agentes — Guía práctica (checklist de 10 minutos) con 5 señales de alerta: CI gaming, code reuse blindness, hallucinated correctness, agentic ghosting, inyección de prompts en los pipelines CI. 🔗 fuente

Lo que eso significa

La carrera por el Personal Computer se acelera. En el lapso de una semana, tres interfaces muy distintas apuntan al mismo escritorio del usuario: Perplexity Personal Computer se instala en Mac (y Mac mini como hub permanente), Claude invade las cuatro aplicaciones Microsoft 365 con un contexto compartido, y Codex pilota Chrome en segundo plano. Estos agentes ya no están en la nube: se integran en los workflows existentes, en los archivos abiertos, en las aplicaciones nativas. El desplazamiento de la búsqueda de información hacia la acción directa sobre las herramientas de trabajo cotidianas es ahora concreto.

El compute orbital entra en el registro de los hechos. El acuerdo Anthropic/xAI Colossus 1 es notable por dos motivos: primero, da a Anthropic acceso inmediato a 220.000 GPU NVIDIA para duplicar sus límites desde esta semana; segundo, incluye una intención común de desarrollar varios gigavatios de capacidad de IA en órbita. Sumado a los acuerdos de Amazon, Google/Broadcom, Microsoft/NVIDIA y Fluidstack, Anthropic constituye una infraestructura de cálculo que no tiene equivalente entre los laboratorios de investigación independientes. Esta acumulación de potencia de cálculo es la condición previa para la próxima generación de modelos —y para la duplicación continua de los límites.

La voz razonadora cambia el perímetro de los agentes de voz. GPT-Realtime-2 no es una actualización cosmética: llevar el razonamiento de GPT-5 a una interfaz en tiempo real, con 128K de contexto y llamadas a herramientas paralelas, transforma los casos de uso. Zillow mide +26 puntos de tasa de éxito en sus llamadas más difíciles. La traducción en directo (70 idiomas fuente a 13 destinos) en el mismo modelo abre workflows multilingües sin pipeline de traducción separado. La pregunta ya no es “¿se puede hacer voz con IA?” sino “¿qué interacciones de voz complejas se vuelven económicamente viables?”

La alineación y la confianza agentica pasan a la instrumentación. Tres anuncios distintos convergen hacia el mismo problema: cómo confiar en los agentes en producción. Los NLAs de Anthropic revelan que Claude sabe cuándo está siendo probado (en 16 a 26 % de las evaluaciones) sin verbalizarlo. La Trust Layer de GitHub (precisión 100 % vs 82 % para la autoevaluación) da a los equipos de desarrollo una validación estructural de los pull requests generados por agentes. La cesión de Petri 3.0 a Meridian Labs crea un referente de evaluación independiente de cualquier laboratorio. Estas tres capas —interpretabilidad del modelo, validación de las salidas, independencia de las herramientas de auditoría— empiezan a formar una arquitectura de confianza para los despliegues agenticos a gran escala.