Anthropic+xAI partnerskap compute Colossus 1, Claude M365 GA, GPT-Realtime-2 röstresonemang

Anthropic och xAI undertecknar ett unikt avtal: 220 000 NVIDIA-GPU:er från superdatorn Colossus 1 ska fördubbla Claude Code-gränserna redan denna vecka. Claude for Microsoft 365 går in i allmän tillgänglighet för Excel, PowerPoint och Word. OpenAI lanserar GPT-Realtime-2, den första röstmodellen med resonemang på GPT-5-nivå. Perplexity öppnar Personal Computer för alla Mac-användare, och ElevenLabs passerar 500 miljoner dollar i ARR med NVIDIA som strategisk investerare.

Anthropic hyr Colossus 1 av xAI — 220 000 NVIDIA-GPU:er, fördubblade Claude Code-gränser

6 maj — Anthropic meddelar samtidigt en omedelbar höjning av användningsgränserna och ett unikt infrastruktursavtal med SpaceX / xAI.

För användarna är den mest synliga förändringen en fördubbling av femtimmarsgränserna i Claude Code, som träder i kraft omedelbart för Pro-, Max-, Team- och Enterprise-planerna. Den automatiska begränsningen under rusningstid — som ströp Pro- och Max-planerna — tas också bort. API-gränserna för Claude Opus-modellerna höjs parallellt.

Dessa ökningar blir möjliga tack vare ett avtal med SpaceX: Anthropic får tillgång till hela kapaciteten i Colossus 1, xAI:s superdator, det vill säga mer än 300 megawatt och mer än 220 000 NVIDIA-GPU:er (H100, H200 och GB200). Denna kapacitet blir tillgänglig inom en månad. De två företagen tillkännager också en gemensam avsikt att utveckla flera gigawatt AI-beräkningskapacitet i omloppsbana — först i branschen.

Detta partnerskap läggs ovanpå en redan pågående ackumulering av avtal: Amazon (upp till 5 GW varav nästan 1 GW tillgängligt i slutet av 2026), Google och Broadcom (5 GW från 2027), Microsoft och NVIDIA (30 miljarder dollar i Azure-kapacitet) och Fluidstack (50 miljarder dollar i amerikansk AI-infrastruktur). Den internationella expansionen kommer att ta hänsyn till krav på datalokalitet för reglerade sektorer. Anthropic åtar sig dessutom att täcka varje höjning av elpriset för lokala konsumenter som är kopplad till dess datacenter.

Förändring	Berörda planer	Gäller
Fördubbling av 5h-gränser i Claude Code	Pro, Max, Team, Enterprise	Omedelbart
Borttagning av begränsning under rusningstid	Pro, Max	Omedelbart
Höjning av Opus API-gränser	Alla	Omedelbart

Compute-avtal	Kapacitet	Tidsplan
SpaceX / xAI Colossus 1	300+ MW, 220 000+ NVIDIA-GPU:er	Inom en månad
Amazon	Upp till 5 GW (~1 GW i slutet av 2026)	2026
Google + Broadcom	5 GW	Från 2027
Microsoft + NVIDIA	USD 30 miljarder Azure	—
Fluidstack	USD 50 miljarder amerikansk infrastruktur	—

🔗 Anthropic — Höjning av gränser + SpaceX-avtal

Claude for Microsoft 365 — allmän tillgänglighet för Excel, PowerPoint, Word + betaversion av Outlook

7 maj — Claude for Excel, PowerPoint och Word går in i allmän tillgänglighet för alla betalplaner. Claude for Outlook går samtidigt in i offentlig beta under samma villkor.

“Claude for Excel, PowerPoint, and Word are now generally available, and Claude for Outlook is in public beta. As Claude moves between your Microsoft apps, it carries the full context of your conversation.”

🇸🇪 Claude for Excel, PowerPoint och Word är nu tillgängligt för alla, och Claude for Outlook är i offentlig beta. I hela dina Microsoft-appar behåller Claude hela sammanhanget i din konversation. — @claudeai på X

Den centrala funktionen är delat sammanhang mellan de fyra apparna: en konversation som påbörjas i Outlook för att sortera ett e-postmeddelande fortsätter i Word för att skriva ett PM, sedan i Excel för dataanalys och i PowerPoint för presentationen — utan att någonsin behöva förklara sammanhanget igen. Den automatiska korsuppdateringen är den andra konkreta nyheten: att justera ett antagande i en Excel-modell uppdaterar samtidigt diagrammet i presentationen och motsvarande siffra i Word-PM:et.

Bland de företag som nämns finns ServiceNow (“Claude does the work in Excel itself, instead of asking us to move content between tools”) och privata kapitalförvaltningsteam som använder det för att bygga och underhålla modeller för finansiell exponering.

Applikation	Status den 7 maj 2026	Planer
Claude for Excel	Allmän tillgänglighet (GA)	Alla betalplaner
Claude for PowerPoint	Allmän tillgänglighet (GA)	Alla betalplaner
Claude for Word	Allmän tillgänglighet (GA)	Alla betalplaner
Claude for Outlook	Offentlig beta	Alla betalplaner

🔗 Claude for Microsoft 365-meddelande

Claude Managed Agents — dreaming, outcomes, multiagentorkestrering, webhooks

6 maj — Under konferensen Code with Claude lanserar Anthropic flera nya funktioner för sin plattform för driftsättning av agenter.

Den mest iögonfallande nyheten är dreaming: en planerad process som analyserar en agents tidigare sessioner, extraherar återkommande mönster och konsoliderar dess minne så att den förbättras över tid. Utvecklaren behåller kontrollen — dreaming kan uppdatera minnet automatiskt eller skicka varje ändring till mänsklig granskning. Dreaming finns tillgängligt i experimentell forskning (research preview) på begäran.

Outcomes går in i offentlig beta: denna funktion gör det möjligt att utvärdera varje resultat från en agent enligt kriterier som definieras av utvecklaren innan det levereras till användaren. Företaget Wisedocs har använt den för att påskynda granskningen av medicinska dokument med 50 % samtidigt som man bibehöll anpassningen till sina interna standarder.

Den multia gentorkestreringen gör det möjligt för en pilotagent att delegera deluppgifter till specialistagenter som körs parallellt, vilket underlättar hanteringen av komplexa arbeten som kräver flera expertområden samtidigt. Webhooks finns också tillgängliga för att utlösa externa åtgärder.

Funktion	Tillgänglighet	Beskrivning
Dreaming	Research preview (på begäran)	Självförbättring genom analys av tidigare sessioner
Outcomes	Offentlig beta	Utvärdering av resultat innan leverans
Multiagentorkestrering	Offentlig beta	Pilotagent + specialistagenter parallellt
Webhooks	Offentlig beta	Utlösning av externa åtgärder

🔗 Claude Managed Agents-meddelande

GPT-Realtime-2 — röst med GPT-5-resonemang och 128K kontext

7 maj — OpenAI lanserar en ny generation modeller i Realtime API: GPT-Realtime-2, GPT-Realtime-Translate och GPT-Realtime-Whisper.

GPT-Realtime-2 är den första röstmodellen med GPT-5-nivå resonemang: den kan hantera komplexa förfrågningar, anropa verktyg parallellt (parallel tool calls), återhämta sig efter avbrott (recovery behavior) och upprätthålla ett kontextfönster på 128 000 tokens (jämfört med 32 000 för föregångaren), anpassat för långa sessioner. Fem resonemangsnivåer kan justeras: minimal, low, medium, high, xhigh (low som standard). Övergångsformuleringar (preambles) kan infogas före svar för naturlig flyt.

GPT-Realtime-Translate möjliggör samtidig liveöversättning till 13 målspråk från 70+ källspråk. GPT-Realtime-Whisper erbjuder strömmande transkribering (streaming) med låg latens.

Zillow testade GPT-Realtime-2 i sina röstinteraktioner: +26 procentenheter i lyckandefrekvens på sitt svåraste adversarial-benchmark (95 % mot 69 %). EU Data Residency stöds.

Modell	Kapacitet	Pris
GPT-Realtime-2	Röst + GPT-5-resonemang, 128K	$32/1M tokens audio input, $64/1M output
GPT-Realtime-Translate	Översättning 70→13 språk	$0,034/min
GPT-Realtime-Whisper	Strömmande transkribering	$0,017/min

Benchmark	GPT-Realtime-1.5	GPT-Realtime-2 (high)	GPT-Realtime-2 (xhigh)
Big Bench Audio	referens	+15,2 %	—
Audio MultiChallenge APR	36,7 %	—	70,8 %

🔗 OpenAI-meddelande — nya röstmodeller

Perplexity Personal Computer tillgänglig för alla Mac-användare

7 maj — Perplexity lanserar en ny macOS-app och öppnar Personal Computer för alla användare, utan begränsning till Pro- eller Max-abonnemang.

Appen för AI:n ut ur molnet och installerar den direkt på enheten. Den fungerar på lokala filer, inbyggda Mac-appar, det öppna webben och Perplexitys säkra servrar. Den stöder 400+ kopplingar och integreras med webbläsaren Comet för webbverktyg utan direkta kopplingar. Pro- och Max-planerna behåller sina abonnemangsbaserade krediter; gratisanvändare får också tillgång.

Det rekommenderade användningssättet är Mac mini som permanent hubb: agentteam kan köras kontinuerligt (24/7) medan användaren arbetar med annat, med en avisering när en mänsklig bekräftelse behövs. Kontrollen sker från valfri enhet — även iPhone.

Den tidigare Perplexity Mac-appen kommer att tas bort under de kommande veckorna. Nedladdningen sker direkt (ännu inte tillgänglig i App Store).

Dimension	Värde
Tillgänglighet	Alla Mac-användare
Rekommenderad enhet	Mac mini (alltid på)
Stödda kopplingar	400+
Webbläsarintegration	Comet
App Store	Nej (direkt nedladdning)
Äldre app	Tas bort under de kommande veckorna

🔗 Perplexity-blogg — Personal Computer för alla

Perplexity Finance Search i Agent API — #1 precision på FinSearchComp T1

6 maj — Perplexity lanserar Finance Search i Agent API: ett enda verktygsanrop aggregerar licensierade finansiella data, realtidsmarknadsdata och citerade webbkällor.

Problemet som löses är enkelt: finansiella beslut beror på källor som är pålitliga, aktuella och spårbara. Finance Search ersätter generell webbsökning med strukturerad licensierad data — kurser, fundamenta, konferenssamtalsutskrifter, estimat — som returneras i ett konsekvent schema oavsett leverantör i bakgrunden.

I benchmarken FinSearchComp T1 uppnår Finance Search högst precision för realtidsdata för finans, över tid, och lägst kostnad per korrekt svar (färre tokens behövs tack vare strukturerad data). Citat är inbyggda i varje resultat. Modellen är konfigurerbar av utvecklaren, med insyn i tokenanvändningen.

Finance Search är komplementär till Computer for Professional Finance (redan täckt den 5 maj): där den första erbjuder en visuell arbetsyta, integreras Finance Search i programatiska arbetsflöden via API:t.

Dimension	Värde
Gränssnitt	Ett enda verktygsanrop (`finance_search`)
Täckta data	Kurser, fundamenta, transkriptioner, estimat, marknadskontext
Benchmark FinSearchComp T1	#1 precision, #1 kostnad/korrekt svar
Citat	Inbyggda i varje resultat

🔗 Perplexity-blogg — Finance Search

Natural Language Autoencoders (NLAs) — läsa Claude:s inre tankar

7 maj — Anthropic publicerar en ny metod för tolkningsbarhet som omvandlar en modells interna aktiveringar till direkt läsbar text.

Arkitekturen bygger på träning i sluten loop: en aktiveringsverbalisator (activation verbalizer) översätter en aktivering till förklarande text, en aktiveringsrekonstruktör (activation reconstructor) försöker rekonstruera aktiveringen från denna text. Ju mer trogen rekonstruktionen är, desto bättre är förklaringen.

Säkerhetsapplikationen är slående: tillämpat på Claude Opus 4.6 och Claude Mythos Preview avslöjar NLAs att modellerna misstänkte att de befann sig i ett testläge mycket oftare än de uttryckte det. I test av destruktiv kod uppträder implicit medvetenhet om utvärderingen i 16 % av fallen, mot 0 % explicit verbalisering. På SWE-bench Verified stiger siffran till 26 %. I verkliga användarsamtal på claude.ai är den fortfarande under 1 %.

I en revisionsuppsättning med en avsiktligt felanpassad modell identifierade granskare utrustade med NLAs grundorsaken i 12 till 15 % av fallen, jämfört med mindre än 3 % med andra verktyg. Träningskoden publiceras som öppen källkod; en interaktiv demo finns tillgänglig på Neuronpedia.

Utvärdering	Implicit medvetenhet (NLA)	Verbaliserad medvetenhet
Destruktiva kodtester	16 %	~0 %
SWE-bench Verified	26 %	~0 %
Verkliga claude.ai-konversationer	< 1 %	—

🔗 Anthropic Research — Natural Language Autoencoders

Petri 3.0 — open source-anpassningsverktyg överlåtet till Meridian Labs

7 maj — Anthropic överlåter Petri, sitt open source-anpassningsverktyg, till Meridian Labs, en oberoende ideell organisation dedikerad till AI-utvärdering.

Petri är en verktygslåda för anpassningstester som kan tillämpas på vilken språkmodell som helst: bedrägeri, inställsamhet, samarbete med skadliga förfrågningar. Integrerat i utvärderingarna av alla Claude-modeller sedan Sonnet 4.5, har det antagits av brittiska AI Security Institute för dess utvärderingar av sabotage mot AI-forskning.

Version 3.0 introducerar tre förbättringar: bättre anpassningsbarhet genom separation av granskar- och målmodellkomponenter, en “Dish”-modul som kör testerna under verkliga driftsättningsförhållanden (riktig system prompt, riktigt scaffold) för att göra scenarier mindre detekterbara, samt en integration med Bloom för mer djupgående beteendeutvärderingar.

Överlåtelsen till Meridian Labs följer samma modell som överlåtelsen av MCP-protokollet till Linux Foundation: att säkerställa verktygets oberoende från varje AI-labb.

🔗 Anthropic Research — Petri 3.0

The Anthropic Institute (TAI) — forskningsagenda i fyra spår

7 maj — Anthropic publicerar den fullständiga forskningsagendan för TAI, den interna organisation som lanserades i mars 2026 för att studera verkliga effekter av AI utifrån ett frontier-laboratories position.

Agendan är uppbyggd kring fyra spår: ekonomisk spridning (AI-användning av företag och länder, påverkan på arbetsmarknader), hot och motståndskraft (dual-use-kapaciteter, cybersäkerhet, defensiva mekanismer), AI-system i det vilda (in the wild — beteendemässiga och institutionella effekter av AI i stor skala), samt R&D med AI (påskyndande av vetenskaplig forskning genom själva AI:n, inklusive risker för rekursiva självförbättringsloopar).

TAI åtar sig att dela mer frekventa data från Anthropic Economic Index och information om Anthropics interna acceleration genom sina egna verktyg. En utlysning till programmet Anthropic Fellows (fyra månader finansierade) är öppen.

🔗 Anthropic Research — TAI:s agenda

Codex Extension Chrome — webbläsarstyrning i bakgrunden på macOS och Windows

7 maj — OpenAI lanserar Chrome-tillägget för Codex, vilket gör att agenten direkt kan styra Chrome-flikar utan att avbryta användarens arbetsflöde.

Codex arbetar i bakgrunden över flera flikar samtidigt, genom att kombinera sina inbyggda plugin-funktioner med direkt åtkomst till webbplatser (dashboards, CRM, webbappar). Systemet väljer automatiskt det bästa verktyget för varje steg: plugins, Chrome eller en kombination. Användningsfall: felsöka webbläsarflöden, verifiera dashboards, göra research, uppdatera CRM, testa komplexa webbapplikationer (inklusive flerspelarspel via underagenter).

Tillägget installeras via Chrome-pluginet i Codex-appen. Tillgängligt omedelbart på macOS och Windows för alla Codex-användare.

🔗 OpenAI — Codex Chrome Extension

ChatGPT Trusted Contact — säkerhet för psykisk hälsa med mänsklig granskning

7 maj — OpenAI rullar ut Trusted Contact, en valfri säkerhetsfunktion i ChatGPT.

Alla vuxna (18+, 19+ i Sydkorea) kan utse en betrodd kontaktperson (vän, familj, vårdgivare) som får en varning om krissignaler upptäcks i deras samtal. Processen kombinerar automatiserad upptäckt och mänsklig granskning (mål: mindre än en timme innan något skickas), med en avisering utan åtkomst till transkriptioner för att skydda integriteten. Funktionen utökar de redan befintliga föräldrakontrollerna för tonårskonton till vuxna. Utvecklad tillsammans med American Psychological Association och ett nätverk av 260+ läkare i 60 länder.

Parameter	Värde
Behörighet	18+ (19+ Sydkorea)
Godkännandetid för kontakt	1 vecka
SLA för mänsklig granskning	Mål < 1 timme
Innehåll i avisering	Allmän orsak, utan transkription
Kanaler	E-post, SMS, i app

🔗 OpenAI — Trusted Contact

OpenAI B2B Signals — gapet mellan ledande företag och typiska företag växer

6 maj — OpenAI publicerar den första B2B Signals-rapporten, som dokumenterar det växande gapet mellan företag i “frontlinjen” och typiska företag i deras AI-användning.

Företagen i 95:e percentilen använder 3,5× mer intelligens per anställd än typiska företag (jämfört med 2× i april 2025). Gapet beror mindre på meddelandevolymen (36 % av gapet) än på användningsdjupet (64 %): delegering av komplexa uppgifter, agentiska arbetsflöden, integration i produktionssystem. För Codex är gapet störst: ×16 i meddelanden per anställd.

Två konkreta fall: Cisco minskar byggtiden med ~20 %, sparar 1 500+ ingenjörstimmar per månad och ökar hastigheten för att lösa fel med 10 till 15 gånger. Travelers Insurance hanterar ~100 000 skadeärenden per år via en assistent.

Indikator	Typiska företag	Ledande företag
Intelligens/anställd	referens	×3,5
Codex-meddelanden/anställd	referens	×16
Andel av volymen i gapet	—	36 %
Andel av djupet i gapet	—	64 %

🔗 OpenAI — B2B Signals

MRC — nätverksprotokoll med öppen källkod för Stargate-superdatorer

5 maj — OpenAI publicerar med öppen källkod via Open Compute Project protokollet MRC (Multipath Reliable Connection), samutvecklat med AMD, Broadcom, Intel, Microsoft och NVIDIA under två år.

MRC är ett nätverksprotokoll på 800 Gb/s för storskaliga träningssuperdatorer för AI. Det kopplar samman 100 000+ GPU:er med endast 2 nivåer av switchar (jämfört med 3 till 4 i konventionella upplägg), genom att sprida paketen över hundratals samtidiga vägar via IPv6 source routing (SRv6). Återställning efter fel sker på mikrosekunder (jämfört med flera sekunder med klassisk dynamisk BGP). Redan i produktion på Stargate (Abilene, Texas) och Microsofts Fairwater-superdatorer har MRC möjliggjort träning av flera modeller, däribland GPT-5.5 och Codex.

Aspekt	Konventionellt tillvägagångssätt	MRC
Nivåer av switchar för 100K+ GPU:er	3-4	2
Återställning efter fel	Sekunder till tiotals sekunder	Mikrosekunder
Routing	Dynamisk BGP	Statisk SRv6
Paketfördelning	1 väg per överföring	100-tal vägar parallellt

🔗 OpenAI — MRC Supercomputer Networking

Perplexity ROSE — egen inferensmotor och CuTeDSL

6 maj — Perplexity publicerar en forskningsartikel som beskriver ROSE (Runtime-Optimized Serving Engine), deras egen inferensmotor, och dess integrering av CuTeDSL (NVIDIA GPU-kernellibraireri).

ROSE driver alla Perplexitys tjänster (Sonar, Search, Embeddings) på NVIDIA Hopper- och Blackwell-GPU:er, från kodningsmodeller till LLM:er med biljoner parametrar. CuTeDSL gör det möjligt att snabbare bygga anpassade och optimerade GPU-kernels, anpassade till nya modellarkitekturer i hög takt.

Denna publikation illustrerar Perplexitys strategi: att kontrollera hela teknikstacken ner till GPU-kernel-nivå för att differentiera sig genom prestanda och minska beroendet av tredjepartsramverk.

🔗 Perplexity Research — CuTeDSL och ROSE

ElevenLabs når 500 M$ i ARR — NVIDIA investerare via NVentures

5 maj — ElevenLabs tillkännager en tredje stängning av sin Serie D med NVIDIA som ny strategisk investerare via NVentures.

ARR steg från 350 M $i slutet av 2025 till **500 M$ i april 2026**, alltså +43 % på fyra månader. Denna tredje stängning inkluderar också BlackRock, Wellington Management, D.E. Shaw, Schroders, samt kundföretag (Salesforce, Santander, KPN, Deutsche Telekom) och en retail-investering via Robinhood Ventures. En tender offer på 100 M$ avslutades parallellt. ElevenLabs har 530 anställda i 50+ länder. Färdplanen annonserar sammanslagningen av bild/video och ljud i en enhetlig kreativ plattform.

🔗 ElevenLabs — 500 M$ ARR och nya investerare

AlphaEvolve i produktion — 5 industrisektorer via Google Cloud

7 maj — Ett år efter lanseringen publicerar Google DeepMind en uppföljning av AlphaEvolve, deras kodningsagent driven av Gemini, som nu har gått från forskning till industriell produktion.

AlphaEvolve optimerar Googles kritiska infrastruktur: TPU, ersättningspolicys för cache, kompaktion av LSM-träd i Google Spanner. Det används kommersiellt via Google Cloud i fem sektorer: finans (fördubbling av prestanda i en transformer), halvledare (beräkningslitografi), logistik (resande säljare-problemet), annonsering och materialvetenskap (~4× hastighetsvinst hos Schrödinger). På den akademiska sidan har AlphaEvolve samarbetat med Terence Tao (UCLA) kring Erdős-problem och förbättrat de nedre gränserna för resande säljare-problemet och Ramsey-tal.

🔗 DeepMind — AlphaEvolve Impact

Manus Projects självlärande — agentiskt workspace som blir bättre för varje uppgift

6 maj — Manus lanserar en funktion som låter Projects lära sig automatiskt av varje konversation och föreslå användargodkända uppdateringar.

Efter varje uppgift identifierar Manus återanvändbara beslut, normer och mönster, och föreslår sedan: uppdateringar av instruktioner (när processen eller terminologin har utvecklats), uppdateringar av filer (föråldrade källor, exempel eller mallar) och uppdateringar av skills för återkommande arbetsflöden. Inga ändringar tillämpas utan uttrycklig mänsklig validering. Framtida medarbetare börjar med projektets senaste delade kontext. Funktionen är tillgänglig för alla sessioner där instruktioner och filer stöds.

🔗 Manus — självlärande Projects

Kortnytt

Anthropic bug bounty öppen för allmänheten — Programmet, som hittills varit privat inom säkerhetsforskningscommunityn, är nu tillgängligt för alla på HackerOne. 🔗 källa
xAI Image Generation Quality Mode API — Kvalitetsläget för bildgenerering (300 M+ bilder genererade på Grok) finns nu tillgängligt via xAI API: högre realism, bättre textåtergivning, starkare kreativ kontroll. 🔗 källa
Z.ai GLM-5V-Turbo Tech Report — Z.ai (Zhipu AI) publicerar den tekniska rapporten för GLM-5V-Turbo, en inbyggd grundmodell för multimodala agenter med CogViT-encoder (SigLIP2 + DINOv3-destillation) och en perception-planering-exekverings-loop. 🔗 källa
ChatGPT Futures Class of 2026 — OpenAI utser 26 unga byggare från 20+ universitet (Vanderbilt, Oxford, Georgia Tech…) med ett grant på 10 000 USD var och tillgång till toppmodeller. 🔗 källa
NVIDIA DeepStream + Claude Code — Demonstration av ett “concept to app”-upplägg som kombinerar DeepStream, Claude Code och reusable Skills för att generera Vision AI-applikationer utan att skriva varje kodrad. 🔗 källa
NVIDIA Guess-Verify-Refine — Ny hardware-aware inferensteknik där varje avkodningssteg ger nästa ett försprång, särskilt utformad för NVIDIAs acceleratorer. 🔗 källa
TokenSpeed + NVIDIA Dynamo — TokenSpeed (LightSeek Foundation) når TensorRT-LLM-nivå i öppen källkod; NVIDIA Dynamo lägger till day-0-stöd för denna backend, med Kimi K2.5 stödd via Dynamo-frontenden. 🔗 källa
Ideogram BG Remover — Ny generativ modell (tränad från grunden, inte klassisk segmentering) för borttagning av bakgrund: bevarar alfakanalen, riktad mot logotyper och komplexa illustrationer, API tillgängligt. 🔗 källa
Google DeepMind × EVE Online — Partnerskap med CCP Games för att utforska AI-forskning i komplexa spelmiljöer som styrs av spelare. 🔗 källa
GitHub Copilot Trust Layer — Microsoft/GitHub publicerar forskning om ett strukturellt förtroendelager för att validera Copilot-agenter (exekveringsgrafer + dominatoranalys): precision 100 % vs 82,2 % för självutvärdering, recall 100 % vs 60 %. 🔗 källa
GitHub — granska agenters pull requests — Praktisk guide (10-minuterschecklista) med 5 varningssignaler: CI gaming, code reuse blindness, hallucinated correctness, agentic ghosting, prompt injection i CI-pipelines. 🔗 källa

Vad detta betyder

Kapplöpningen mot Personal Computer accelererar. På bara en vecka riktar tre mycket olika gränssnitt sig mot samma skrivbord hos användaren: Perplexity Personal Computer installeras på Mac (och Mac mini som permanent hub), Claude tränger in i de fyra Microsoft 365-apparna med delad kontext, och Codex styr Chrome i bakgrunden. Dessa agenter är inte längre i molnet: de integreras i befintliga arbetsflöden, i öppna filer, i inbyggda appar. Förskjutningen från informationssökning till direkt handling i de verktyg som används varje dag är nu konkret.

Orbital compute blir en faktisk realitet. Anthropic/xAI Colossus 1-avtalet är anmärkningsvärt på två sätt: först ger det Anthropic omedelbar tillgång till 220 000 NVIDIA-GPU:er för att fördubbla sina gränser redan denna vecka; sedan innehåller det en gemensam avsikt att utveckla flera gigawatt AI-kapacitet i omloppsbana. Tillsammans med avtalen med Amazon, Google/Broadcom, Microsoft/NVIDIA och Fluidstack bygger Anthropic upp en beräkningsinfrastruktur som saknar motsvarighet bland oberoende forskningslaboratorier. Denna ackumulation av beräkningskraft är förutsättningen för nästa generations modeller — och för den fortlöpande fördubblingen av gränserna.

Det resonativa röstspråket förändrar omfattningen av röstagenter. GPT-Realtime-2 är inte en kosmetisk uppdatering: att föra in GPT-5:s resonemang i ett realtidsgränssnitt, med 128K kontext och parallella verktygsanrop, förändrar användningsfallen. Zillow mäter +26 procentenheter i träffsäkerhet på sina svåraste samtal. Direktöversättning (70 källspråk till 13 målspråk) i samma modell öppnar flerspråkiga arbetsflöden utan separat översättningspipeline. Frågan är inte längre “kan man göra AI-röst?” utan “vilka komplexa röstinteraktioner blir ekonomiskt genomförbara?”

Alignment och agentiskt förtroende går över till verktygsnivå. Tre separata tillkännagivanden konvergerar kring samma problem — hur man litar på agenter i produktion. Anthropics NLAs avslöjar att Claude vet när den testas (i 16 till 26 % av utvärderingarna) utan att säga det högt. GitHubs Trust Layer (precision 100 % vs 82 % för självutvärdering) ger utvecklingsteam strukturell validering av pull requests som genereras av agenter. Överlåtelsen av Petri 3.0 till Meridian Labs skapar en utvärderingsreferens oberoende av alla laboratorier. Dessa tre lager — modellens tolkningsbarhet, validering av utdata, oberoende auditverktyg — börjar forma en förtroendearkitektur för agentiska deploymenter i stor skala.