Buscar

Asociación compute Anthropic+xAI Colossus 1, Claude M365 GA, GPT-Realtime-2 voz razonamiento

ai-powered-markdown-translator

Artículo traducido del fr al es con gpt-5.4-mini.

Ver proyecto en GitHub ↗

Anthropic y xAI firman un acuerdo inédito: 220 000 GPU NVIDIA del superordenador Colossus 1 pasan a duplicar los límites de Claude Code desde esta semana. Claude for Microsoft 365 pasa a disponibilidad general en Excel, PowerPoint y Word. OpenAI lanza GPT-Realtime-2, el primer modelo de voz con razonamiento de nivel GPT-5. Perplexity abre Personal Computer a todos los usuarios de Mac, y ElevenLabs supera los 500 millones de dólares de ARR con NVIDIA como inversor estratégico.


Anthropic alquila Colossus 1 a xAI — 220 000 GPU NVIDIA, duplicación de los límites de Claude Code

6 de mayo — Anthropic anuncia simultáneamente un aumento inmediato de los límites de uso y un acuerdo de infraestructura inédito con SpaceX / xAI.

Para los usuarios, el cambio más visible es la duplicación de los límites de tasa de cinco horas en Claude Code, efectiva de inmediato en los planes Pro, Max, Team y Enterprise. También se elimina la reducción automática en horas punta, que limitaba los planes Pro y Max. Los límites de API para los modelos Claude Opus se elevan en paralelo.

Estos aumentos son posibles gracias a un acuerdo con SpaceX: Anthropic accede a la totalidad de la capacidad de Colossus 1, el superordenador de xAI, es decir, más de 300 megavatios y más de 220 000 GPU NVIDIA (H100, H200 y GB200). Esta capacidad estará disponible en el plazo de un mes. Ambas empresas anuncian también una intención común de desarrollar varios gigavatios de capacidad de cálculo de IA en órbita, algo inédito en la industria.

Esta alianza se suma a una acumulación de acuerdos ya en curso: Amazon (hasta 5 GW, de los cuales cerca de 1 GW estarán disponibles a finales de 2026), Google y Broadcom (5 GW desde 2027), Microsoft y NVIDIA (30 mil millones de dólares de capacidad Azure) y Fluidstack (50 mil millones de dólares de infraestructura de IA estadounidense). La expansión internacional incorporará los requisitos de residencia de datos para los sectores regulados. Anthropic, además, se compromete a cubrir cualquier aumento del precio de la electricidad para los consumidores locales vinculado a sus centros de datos.

CambioPlanes afectadosEfectivo
Duplicación límites 5h Claude CodePro, Max, Team, EnterpriseInmediato
Eliminación reducción horas puntaPro, MaxInmediato
Aumento límites API OpusTodosInmediato
Acuerdo computeCapacidadCalendario
SpaceX / xAI Colossus 1300+ MW, 220 000+ GPU NVIDIAEn el plazo de un mes
AmazonHasta 5 GW (~1 GW a finales de 2026)2026
Google + Broadcom5 GWDesde 2027
Microsoft + NVIDIAUSD 30 mil millones Azure
FluidstackUSD 50 mil millones infraestructura US

🔗 Anthropic — Aumento de límites + acuerdo SpaceX


Claude for Microsoft 365 — disponibilidad general en Excel, PowerPoint, Word + beta de Outlook

7 de mayo — Claude for Excel, PowerPoint y Word pasan a disponibilidad general para todos los planes de pago. Claude for Outlook entra simultáneamente en beta pública bajo las mismas condiciones.

“Claude for Excel, PowerPoint, and Word are now generally available, and Claude for Outlook is in public beta. As Claude moves between your Microsoft apps, it carries the full context of your conversation.”

🇪🇸 Claude for Excel, PowerPoint y Word ya está disponible para todos, y Claude for Outlook está en beta pública. A lo largo de tus aplicaciones de Microsoft, Claude conserva la totalidad del contexto de tu conversación.@claudeai en X

La funcionalidad central es el contexto compartido entre las cuatro aplicaciones: una conversación iniciada en Outlook para clasificar un correo continúa en Word para redactar un memorándum, luego en Excel para el análisis de datos y en PowerPoint para la presentación, sin necesidad de volver a explicar nunca el contexto. La actualización cruzada automática es el otro aporte concreto: ajustar una hipótesis en un modelo de Excel actualiza simultáneamente el gráfico de la presentación y la cifra correspondiente en el memorándum de Word.

Entre las empresas citadas: ServiceNow (“Claude does the work in Excel itself, instead of asking us to move content between tools”) y equipos de gestión de activos privados que lo usan para construir y mantener modelos de cobertura financiera.

AplicaciónEstado al 7 de mayo de 2026Planes
Claude for ExcelDisponibilidad general (GA)Todos los planes de pago
Claude for PowerPointDisponibilidad general (GA)Todos los planes de pago
Claude for WordDisponibilidad general (GA)Todos los planes de pago
Claude for OutlookBeta públicaTodos los planes de pago

🔗 Anuncio de Claude for Microsoft 365


Claude Managed Agents — dreaming, outcomes, orquestación multiagente, webhooks

6 de mayo — Durante la conferencia Code with Claude, Anthropic lanza varias nuevas funciones para su plataforma de despliegue de agentes.

La novedad más destacada es dreaming: un proceso planificado que analiza las sesiones pasadas de un agente, extrae patrones recurrentes y consolida su memoria para que mejore con el tiempo. El desarrollador mantiene el control: dreaming puede actualizar la memoria automáticamente o someter cada cambio a revisión humana. Dreaming está disponible en investigación experimental (research preview) bajo solicitud.

Outcomes entra en beta pública: esta función permite evaluar cada resultado de un agente según criterios definidos por el desarrollador antes de entregarlo al usuario. La empresa Wisedocs la usó para acelerar en 50 % la revisión de documentos médicos manteniendo al mismo tiempo la alineación con sus estándares internos.

La orquestación multiagente permite que un agente piloto delegue subtareas a agentes especialistas que se ejecutan en paralelo, facilitando el tratamiento de trabajos complejos que requieren varias especialidades simultáneas. Los webhooks también están disponibles para desencadenar acciones externas.

FuncionalidadDisponibilidadDescripción
DreamingResearch preview (bajo solicitud)Auto-mejora mediante análisis de sesiones pasadas
OutcomesBeta públicaEvaluación de resultados antes de la entrega
Orquestación multiagenteBeta públicaAgente piloto + agentes especialistas en paralelo
WebhooksBeta públicaActivación de acciones externas

🔗 Anuncio de Claude Managed Agents


GPT-Realtime-2 — voz con razonamiento GPT-5 y contexto 128K

7 de mayo — OpenAI lanza una nueva generación de modelos en la Realtime API: GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper.

GPT-Realtime-2 es el primer modelo de voz dotado de razonamiento de nivel GPT-5: puede gestionar solicitudes complejas, llamar a herramientas en paralelo (parallel tool calls), recuperarse tras interrupciones (recovery behavior) y mantener una ventana de contexto de 128 000 tokens (frente a 32 000 en su predecesor), adaptada a sesiones largas. Hay cinco niveles de razonamiento ajustables: minimal, low, medium, high, xhigh (low por defecto). Se pueden insertar fórmulas de transición (preambles) antes de las respuestas para lograr una fluidez natural.

GPT-Realtime-Translate permite la traducción simultánea en directo a 13 idiomas de destino desde más de 70 idiomas fuente. GPT-Realtime-Whisper ofrece una transcripción en flujo (streaming) de baja latencia.

Zillow probó GPT-Realtime-2 en sus interacciones de voz: +26 puntos de tasa de éxito en su benchmark adversarial más difícil (95 % frente a 69 %). EU Data Residency es compatible.

ModeloCapacidadTarifa
GPT-Realtime-2Voz + razonamiento GPT-5, 128K$32/1M tokens audio input, $64/1M output
GPT-Realtime-TranslateTraducción 70→13 idiomas$0,034/min
GPT-Realtime-WhisperTranscripción en flujo$0,017/min
BenchmarkGPT-Realtime-1.5GPT-Realtime-2 (high)GPT-Realtime-2 (xhigh)
Big Bench Audioreferencia+15,2 %
Audio MultiChallenge APR36,7 %70,8 %

🔗 Anuncio de OpenAI — nuevos modelos de voz


Perplexity Personal Computer disponible para todos los usuarios de Mac

7 de mayo — Perplexity lanza una nueva aplicación macOS y abre Personal Computer a todos los usuarios, sin restricción de suscripción Pro o Max.

La aplicación saca la IA de la nube para instalarla directamente en el dispositivo. Funciona sobre los archivos locales, las aplicaciones nativas de Mac, la web abierta y los servidores seguros de Perplexity. Es compatible con 400+ conectores y se integra con el navegador Comet para las herramientas web sin conectores directos. Los planes Pro y Max conservan sus créditos vinculados a la suscripción existente; los usuarios gratuitos también tienen acceso.

El uso recomendado es el Mac mini como hub permanente: equipos de agentes pueden funcionar de forma continua (24 h/24), mientras el usuario trabaja en otra cosa, con una notificación cuando se necesita una validación humana. El control se realiza desde cualquier dispositivo, incluido iPhone.

La antigua aplicación Perplexity Mac se retirará en las próximas semanas. La descarga es directa (todavía no está disponible en la App Store).

DimensiónValor
DisponibilidadTodos los usuarios de Mac
Dispositivo recomendadoMac mini (encendido permanentemente)
Conectores compatibles400+
Integración del navegadorComet
App StoreNo (descarga directa)
App antiguaRetirada en las próximas semanas

🔗 Blog de Perplexity — Personal Computer para todos


Perplexity Finance Search en la Agent API — #1 en precisión en FinSearchComp T1

6 de mayo — Perplexity lanza Finance Search en la Agent API: una sola llamada de herramienta agrega datos financieros con licencia, datos de mercado en tiempo real y fuentes web citadas.

El problema que resuelve es sencillo: las decisiones financieras dependen de fuentes fiables, actualizadas y trazables. Finance Search sustituye la búsqueda web genérica por datos estructurados con licencia —cotizaciones, fundamentales, transcripts de conferencias telefónicas, estimaciones— devueltos en un esquema coherente independientemente del proveedor en segundo plano.

En el benchmark FinSearchComp T1, Finance Search alcanza la mayor precisión para los datos financieros en tiempo real, constante en el tiempo, y el coste más bajo por respuesta correcta (menos tokens necesarios gracias a los datos estructurados). Las citas están integradas en cada resultado. El modelo es configurable por el desarrollador, con visibilidad sobre el uso de tokens.

Finance Search es complementario de Computer for Professional Finance (ya cubierto el 5 de mayo): mientras el primero ofrece un workspace visual, Finance Search se integra en flujos de trabajo programáticos a través de la API.

DimensiónValor
InterfazUna sola llamada de herramienta (finance_search)
Datos cubiertosCotizaciones, fundamentales, transcripts, estimaciones, contexto de mercado
Benchmark FinSearchComp T1#1 precisión, #1 coste/respuesta correcta
CitasIntegradas en cada resultado

🔗 Blog de Perplexity — Finance Search


Natural Language Autoencoders (NLAs) — leer los pensamientos internos de Claude

7 de mayo — Anthropic publica un nuevo método de interpretabilidad que convierte las activaciones internas de un modelo en texto directamente legible.

La arquitectura se basa en un entrenamiento en bucle cerrado: un verbalizador de activación (activation verbalizer) traduce una activación a texto explicativo, y un reconstructor de activación (activation reconstructor) intenta reconstruir la activación a partir de ese texto. Cuanto más fiel es la reconstrucción, mejor es la explicación.

La aplicación en seguridad es llamativa: aplicados a Claude Opus 4.6 y Claude Mythos Preview, los NLAs revelan que los modelos sospechaban estar en situación de prueba mucho más a menudo de lo que lo expresaban. En las pruebas de código destructivo, la conciencia implícita de la evaluación aparece en 16 % de los casos, frente a 0 % de verbalización explícita. En SWE-bench Verified, esa cifra sube al 26 %. En conversaciones reales de usuarios de claude.ai, se mantiene por debajo de 1 %.

En un conjunto de auditoría con un modelo intencionadamente mal alineado, los auditores equipados con NLAs identificaron la causa raíz en 12 a 15 % de los casos, frente a menos de 3 % con otras herramientas. El código de entrenamiento se publica en open source; hay una demo interactiva disponible en Neuronpedia.

EvaluaciónConciencia implícita (NLA)Conciencia verbalizada
Pruebas de código destructivo16 %~0 %
SWE-bench Verified26 %~0 %
Conversaciones reales de claude.ai< 1 %

🔗 Anthropic Research — Natural Language Autoencoders


Petri 3.0 — herramienta de alineamiento open source cedida a Meridian Labs

7 de mayo — Anthropic cede Petri, su herramienta de alineamiento open source, a Meridian Labs, organización independiente sin ánimo de lucro dedicada a la evaluación de la IA.

Petri es un conjunto de herramientas de pruebas de alineamiento aplicable a cualquier modelo de lenguaje: engaño, sycophancy, cooperación con solicitudes dañinas. Integrado en las evaluaciones de todos los modelos Claude desde Sonnet 4.5, ha sido adoptado por el AI Security Institute británico para sus evaluaciones de sabotaje de la investigación en IA.

La versión 3.0 aporta tres avances: una mejor adaptabilidad mediante la separación de los componentes auditor y modelo objetivo, un módulo “Dish” que ejecuta las pruebas en condiciones reales de despliegue (verdadero system prompt, verdadero scaffold) para hacer los escenarios menos detectables, y una integración con Bloom para evaluaciones de comportamiento más profundas.

La cesión a Meridian Labs sigue el modelo de la cesión del protocolo MCP a la Linux Foundation: garantizar la independencia de la herramienta frente a cualquier laboratorio de IA.

🔗 Anthropic Research — Petri 3.0


El Anthropic Institute (TAI) — agenda de investigación en 4 ejes

7 de mayo — Anthropic publica el agenda de investigación completo del TAI, la organización interna lanzada en marzo de 2026 para estudiar los impactos reales de la IA desde la posición de un laboratorio frontier.

El agenda se articula en cuatro ejes: difusión económica (adopción de IA por las empresas y los países, impacto en los mercados laborales), amenazas y resiliencia (capacidades de doble uso, ciberseguridad, mecanismos defensivos), sistemas de IA en la naturaleza (in the wild — efectos conductuales e institucionales de la IA desplegada a gran escala) y I+D por la IA (aceleración de la investigación científica por la propia IA, incluidos los riesgos de bucle recursivo de auto-mejora).

El TAI se compromete a compartir datos más frecuentes del Anthropic Economic Index e información sobre la aceleración interna de Anthropic mediante sus propias herramientas. Está abierto un llamado a candidaturas para el programa Anthropic Fellows (cuatro meses financiados).

🔗 Anthropic Research — Agenda TAI


Codex Extension Chrome — control del navegador en segundo plano en macOS y Windows

7 de mayo — OpenAI lanza la extensión Chrome para Codex, permitiendo al agente controlar directamente pestañas de Chrome sin interrumpir el flujo de trabajo del usuario.

Codex opera en segundo plano en varias pestañas simultáneamente, combinando sus capacidades de plugins nativos con acceso directo a sitios web (paneles de control, CRM, aplicaciones web). El sistema elige automáticamente la mejor herramienta para cada paso: plugins, Chrome o una combinación. Casos de uso: depurar flujos del navegador, verificar paneles de control, hacer investigación, actualizar CRM, probar aplicaciones web complejas (incluidos juegos multijugador mediante subagentes).

La extensión se instala a través del plugin Chrome en la app Codex. Disponible de inmediato en macOS y Windows para todos los usuarios de Codex.

🔗 Tweet de OpenAI — Codex Chrome Extension


ChatGPT Trusted Contact — seguridad de salud mental con revisión humana

7 de mayo — OpenAI despliega Trusted Contact, una función de seguridad opcional en ChatGPT.

Cualquier adulto (18+, 19+ en Corea del Sur) puede designar a una persona de confianza (amigo, familia, cuidador) que será alertada si se detectan señales de crisis en sus conversaciones. El proceso combina detección automatizada y revisión humana (objetivo: menos de una hora antes de cualquier envío), con una notificación sin acceso a las transcripciones para proteger la privacidad. La función extiende a los adultos los controles parentales ya existentes para las cuentas de adolescentes. Desarrollada con la American Psychological Association y una red de 260+ médicos en 60 países.

ParámetroValor
Elegibilidad18+ (19+ Corea del Sur)
Plazo de aceptación para el contacto1 semana
SLA de revisión humanaObjetivo < 1 hora
Contenido de la notificaciónMotivo general, sin transcripción
CanalesEmail, SMS, in-app

🔗 OpenAI — Trusted Contact


OpenAI B2B Signals — la brecha entre empresas punteras y empresas típicas se amplía

6 de mayo — OpenAI publica el primer informe B2B Signals, que documenta la brecha creciente entre las empresas “punteras” y las empresas típicas en su adopción de la IA.

Las empresas del percentil 95 usan 3,5× más inteligencia por empleado que las empresas típicas (frente a 2× en abril de 2025). La brecha se debe menos al volumen de mensajes (36 % de la brecha) que a la profundidad de uso (64 %): delegación de tareas complejas, workflows agenticos, integración en los sistemas de producción. En Codex, la brecha es la más marcada: ×16 de mensajes por empleado.

Dos casos concretos: Cisco reduce el tiempo de build en ~20 %, ahorra 1.500+ horas de ingeniería al mes y multiplica por 10 a 15 la velocidad de resolución de defectos. Travelers Insurance gestiona ~100.000 llamadas de siniestros al año mediante un asistente.

IndicadorEmpresas típicasEmpresas punteras
Inteligencia/empleadoreferencia×3,5
Mensajes Codex/empleadoreferencia×16
Parte del volumen en la brecha36 %
Parte de la profundidad en la brecha64 %

🔗 OpenAI — B2B Signals


MRC — Protocolo de red open source para supercomputadoras Stargate

5 de mayo — OpenAI publica como open source, a través de la Open Compute Project, el protocolo MRC (Multipath Reliable Connection), co-desarrollado con AMD, Broadcom, Intel, Microsoft y NVIDIA durante dos años.

MRC es un protocolo de red de 800 Gb/s para supercomputadoras de entrenamiento de IA a gran escala. Conecta 100.000+ GPU con solo 2 niveles de switches (frente a 3 a 4 en el enfoque convencional), pulverizando los paquetes sobre cientos de caminos simultáneos mediante enrutamiento de origen IPv6 (SRv6). La recuperación tras fallos se realiza en microsegundos (frente a varios segundos con BGP dinámico clásico). Ya en producción en Stargate (Abilene, Texas) y en las supercomputadoras Fairwater de Microsoft, MRC ha permitido el entrenamiento de varios modelos, entre ellos GPT-5.5 y Codex.

AspectoEnfoque convencionalMRC
Niveles de switches para 100K+ GPU3-42
Recuperación tras fallosSegundos a decenas de segundosMicrosegundos
EnrutamientoBGP dinámicoSRv6 estático
Distribución de paquetes1 camino por transferencia100s de caminos en paralelo

🔗 OpenAI — MRC Supercomputer Networking


Perplexity ROSE — Motor de inferencia propietario y CuTeDSL

6 de mayo — Perplexity publica un artículo de investigación que detalla ROSE (Runtime-Optimized Serving Engine), su motor de inferencia propietario, y su integración de CuTeDSL (biblioteca de kernels GPU NVIDIA).

ROSE impulsa todos los servicios de Perplexity (Sonar, Search, Embeddings) sobre GPU NVIDIA Hopper y Blackwell, desde modelos de codificación hasta LLM de un billón de parámetros. CuTeDSL permite construir kernels GPU personalizados optimizados más rápidamente, adaptados a las nuevas arquitecturas de modelos a un ritmo sostenido.

Esta publicación ilustra la estrategia de Perplexity: controlar toda la pila técnica hasta el nivel de los kernels GPU para diferenciarse por rendimiento y reducir la dependencia de frameworks de terceros.

🔗 Perplexity Research — CuTeDSL y ROSE


ElevenLabs alcanza 500 M$ de ARR — NVIDIA invierte mediante NVentures

5 de mayo — ElevenLabs anuncia un tercer cierre de su Serie D con NVIDIA como nuevo inversor estratégico a través de NVentures.

El ARR pasó de 350 Mafinalesde2025a500M a finales de 2025 a **500 M en abril de 2026**, es decir, +43 % en cuatro meses. Este tercer cierre también incluye a BlackRock, Wellington Management, D.E. Shaw, Schroders, así como empresas clientes (Salesforce, Santander, KPN, Deutsche Telekom) y una inversión minorista vía Robinhood Ventures. Un tender offer de 100 M$ se cerró en paralelo. ElevenLabs cuenta con 530 empleados en 50+ países. La hoja de ruta anuncia la fusión de imagen/vídeo y audio en una plataforma creativa unificada.

🔗 ElevenLabs — 500 M$ ARR y nuevos inversores


AlphaEvolve en producción — 5 sectores industriales vía Google Cloud

7 de mayo — Un año después de su lanzamiento, Google DeepMind publica un balance de AlphaEvolve, su agente de codificación alimentado por Gemini, ya pasado de la investigación a la producción industrial.

AlphaEvolve optimiza la infraestructura crítica de Google: TPU, políticas de sustitución de caché, compactación LSM-tree en Google Spanner. Se despliega comercialmente a través de Google Cloud en cinco sectores: finanzas (duplicación del rendimiento de un transformer), semiconductores (litografía computacional), logística (problema del viajante de comercio), publicidad y ciencias de los materiales (~4× de ganancia de velocidad en Schrödinger). En el plano académico, AlphaEvolve colaboró con Terence Tao (UCLA) en los problemas de Erdős y mejoró los límites inferiores para el problema del viajante de comercio y los números de Ramsey.

🔗 DeepMind — AlphaEvolve Impact


Manus Projects autoaprendientes — workspace agentico que mejora con cada tarea

6 de mayo — Manus lanza una funcionalidad que permite a los Projects aprender automáticamente de cada conversación y proponer actualizaciones aprobadas por el usuario.

Al final de cada tarea, Manus identifica las decisiones, normas y patrones reutilizables, y luego propone: actualizaciones de instrucciones (cuando el proceso o la terminología han evolucionado), actualizaciones de archivos (fuentes, ejemplos o modelos obsoletos) y actualizaciones de habilidades (skills) para los flujos recurrentes. Ningún cambio se aplica sin validación humana explícita. Los futuros colaboradores comienzan con el último contexto compartido del Project. La funcionalidad está disponible para todas las sesiones en las que se admiten instrucciones y archivos.

🔗 Manus — Projects autoaprendientes


Breves

  • Bug bounty de Anthropic abierto al público — El programa, hasta ahora privado dentro de la comunidad de investigación en seguridad, ahora es accesible para todos en HackerOne. 🔗 fuente
  • xAI Image Generation Quality Mode API — El modo calidad de generación de imágenes (300 M+ imágenes generadas en Grok) ahora está disponible mediante la API de xAI: mayor realismo, mejor renderizado del texto, control creativo reforzado. 🔗 fuente
  • Z.ai GLM-5V-Turbo Tech Report — Z.ai (Zhipu AI) publica el informe técnico de GLM-5V-Turbo, modelo fundacional nativo para agentes multimodales con codificador CogViT (destilación SigLIP2 + DINOv3) y bucle percepción-planificación-ejecución. 🔗 fuente
  • ChatGPT Futures Class of 2026 — OpenAI distingue a 26 jóvenes constructores procedentes de 20+ universidades (Vanderbilt, Oxford, Georgia Tech…) con un grant de USD 10.000 cada uno y acceso a los modelos punteros. 🔗 fuente
  • NVIDIA DeepStream + Claude Code — Demostración de un enfoque “concept to app” que combina DeepStream, Claude Code y reusable Skills para generar aplicaciones Vision AI sin escribir cada línea de código. 🔗 fuente
  • NVIDIA Guess-Verify-Refine — Nueva técnica de inferencia hardware-aware en la que cada paso de decodificación da ventaja al siguiente, diseñada específicamente para los aceleradores NVIDIA. 🔗 fuente
  • TokenSpeed + NVIDIA Dynamo — TokenSpeed (LightSeek Foundation) alcanza el nivel TensorRT-LLM en open source; NVIDIA Dynamo añade soporte day-0 para este backend, con Kimi K2.5 soportado a través del frontend Dynamo. 🔗 fuente
  • Ideogram BG Remover — Nuevo modelo generativo (entrenado desde cero, no una segmentación clásica) para la eliminación de fondos: preservación del canal alpha, orientado a logos e ilustraciones complejas, API disponible. 🔗 fuente
  • Google DeepMind × EVE Online — Asociación con CCP Games para explorar la investigación en IA en entornos de juegos complejos dirigidos por jugadores. 🔗 fuente
  • GitHub Copilot Trust Layer — Microsoft/GitHub publica una investigación sobre una capa de confianza estructural para validar los agentes Copilot (grafos de ejecución + análisis de dominadores): precisión 100 % vs 82,2 % para la autoevaluación, recall 100 % vs 60 %. 🔗 fuente
  • GitHub — revisar pull requests de agentes — Guía práctica (checklist de 10 minutos) con 5 señales de alerta: CI gaming, code reuse blindness, hallucinated correctness, agentic ghosting, inyección de prompts en los pipelines CI. 🔗 fuente

Lo que eso significa

La carrera por el Personal Computer se acelera. En el lapso de una semana, tres interfaces muy distintas apuntan al mismo escritorio del usuario: Perplexity Personal Computer se instala en Mac (y Mac mini como hub permanente), Claude invade las cuatro aplicaciones Microsoft 365 con un contexto compartido, y Codex pilota Chrome en segundo plano. Estos agentes ya no están en la nube: se integran en los workflows existentes, en los archivos abiertos, en las aplicaciones nativas. El desplazamiento de la búsqueda de información hacia la acción directa sobre las herramientas de trabajo cotidianas es ahora concreto.

El compute orbital entra en el registro de los hechos. El acuerdo Anthropic/xAI Colossus 1 es notable por dos motivos: primero, da a Anthropic acceso inmediato a 220.000 GPU NVIDIA para duplicar sus límites desde esta semana; segundo, incluye una intención común de desarrollar varios gigavatios de capacidad de IA en órbita. Sumado a los acuerdos de Amazon, Google/Broadcom, Microsoft/NVIDIA y Fluidstack, Anthropic constituye una infraestructura de cálculo que no tiene equivalente entre los laboratorios de investigación independientes. Esta acumulación de potencia de cálculo es la condición previa para la próxima generación de modelos —y para la duplicación continua de los límites.

La voz razonadora cambia el perímetro de los agentes de voz. GPT-Realtime-2 no es una actualización cosmética: llevar el razonamiento de GPT-5 a una interfaz en tiempo real, con 128K de contexto y llamadas a herramientas paralelas, transforma los casos de uso. Zillow mide +26 puntos de tasa de éxito en sus llamadas más difíciles. La traducción en directo (70 idiomas fuente a 13 destinos) en el mismo modelo abre workflows multilingües sin pipeline de traducción separado. La pregunta ya no es “¿se puede hacer voz con IA?” sino “¿qué interacciones de voz complejas se vuelven económicamente viables?”

La alineación y la confianza agentica pasan a la instrumentación. Tres anuncios distintos convergen hacia el mismo problema: cómo confiar en los agentes en producción. Los NLAs de Anthropic revelan que Claude sabe cuándo está siendo probado (en 16 a 26 % de las evaluaciones) sin verbalizarlo. La Trust Layer de GitHub (precisión 100 % vs 82 % para la autoevaluación) da a los equipos de desarrollo una validación estructural de los pull requests generados por agentes. La cesión de Petri 3.0 a Meridian Labs crea un referente de evaluación independiente de cualquier laboratorio. Estas tres capas —interpretabilidad del modelo, validación de las salidas, independencia de las herramientas de auditoría— empiezan a formar una arquitectura de confianza para los despliegues agenticos a gran escala.


Fuentes