Suchen

Anthropic+xAI-Partnerschaft Compute Colossus 1, Claude M365 GA, GPT-Realtime-2 Stimme und Reasoning

ai-powered-markdown-translator

Von fr ins de übersetzter Artikel mit gpt-5.4-mini.

Projekt auf GitHub ansehen ↗

Anthropic und xAI schließen eine beispiellose Vereinbarung: 220.000 NVIDIA-GPUs des Supercomputers Colossus 1 verdoppeln ab dieser Woche die Claude-Code-Limits. Claude for Microsoft 365 wird in Excel, PowerPoint und Word allgemein verfügbar. OpenAI bringt GPT-Realtime-2 auf den Markt, das erste Sprachmodell mit Reasoning auf GPT-5-Niveau. Perplexity öffnet Personal Computer für alle Mac-Nutzer, und ElevenLabs überschreitet mit NVIDIA als strategischem Investor die Marke von 500 Millionen Dollar ARR.


Anthropic mietet Colossus 1 von xAI — 220.000 NVIDIA-GPUs, Verdopplung der Claude-Code-Limits

6. Mai — Anthropic kündigt gleichzeitig eine sofortige Erhöhung der Nutzungslimits und eine beispiellose Infrastrukturvereinbarung mit SpaceX / xAI an.

Für die Nutzer ist die sichtbarste Änderung die Verdopplung der Fünf-Stunden-Durchsatzlimits in Claude Code, die sofort für die Pläne Pro, Max, Team und Enterprise wirksam wird. Die automatische Drosselung zu Spitzenzeiten — die zuvor die Pro- und Max-Tarife einschränkte — wird ebenfalls entfernt. Die API-Limits für Claude-Opus-Modelle werden parallel angehoben.

Diese Erhöhungen werden durch eine Vereinbarung mit SpaceX möglich: Anthropic erhält Zugang zur gesamten Kapazität von Colossus 1, dem Supercomputer von xAI, also mehr als 300 Megawatt und mehr als 220.000 NVIDIA-GPUs (H100, H200 und GB200). Diese Kapazität steht innerhalb eines Monats zur Verfügung. Beide Unternehmen kündigen außerdem die gemeinsame Absicht an, mehrere Gigawatt KI-Rechenkapazität im Orbit zu entwickeln — ein Novum in der Branche.

Diese Partnerschaft kommt zusätzlich zu einer Reihe bereits laufender Vereinbarungen hinzu: Amazon (bis zu 5 GW, davon fast 1 GW bis Ende 2026 verfügbar), Google und Broadcom (5 GW ab 2027), Microsoft und NVIDIA (30 Milliarden Dollar Azure-Kapazität) sowie Fluidstack (50 Milliarden Dollar US-KI-Infrastruktur). Die internationale Expansion wird die Anforderungen an die Datenresidenz für regulierte Sektoren berücksichtigen. Anthropic verpflichtet sich außerdem, jede Erhöhung des Strompreises für lokale Verbraucher, die mit seinen Rechenzentren verbunden ist, zu übernehmen.

ÄnderungBetroffene PläneWirksam
Verdopplung der 5h-Limits von Claude CodePro, Max, Team, EnterpriseSofort
Abschaffung der Spitzenzeiten-DrosselungPro, MaxSofort
Erhöhung der Opus-API-LimitsAlleSofort
Compute-VereinbarungKapazitätZeitplan
SpaceX / xAI Colossus 1300+ MW, 220.000+ NVIDIA-GPUsInnerhalb eines Monats
AmazonBis zu 5 GW (~1 GW Ende 2026)2026
Google + Broadcom5 GWAb 2027
Microsoft + NVIDIA30 Mrd. USD Azure
Fluidstack50 Mrd. USD US-Infrastruktur

🔗 Anthropic — Höhere Limits + SpaceX-Vereinbarung


Claude for Microsoft 365 — allgemeine Verfügbarkeit in Excel, PowerPoint, Word + Outlook-Beta

7. Mai — Claude for Excel, PowerPoint und Word werden für alle kostenpflichtigen Pläne allgemein verfügbar. Claude for Outlook geht gleichzeitig unter denselben Bedingungen in die öffentliche Beta.

“Claude for Excel, PowerPoint, and Word are now generally available, and Claude for Outlook is in public beta. As Claude moves between your Microsoft apps, it carries the full context of your conversation.”

🇩🇪 Claude for Excel, PowerPoint und Word ist jetzt für alle verfügbar, und Claude for Outlook befindet sich in der öffentlichen Beta. Über Ihre Microsoft-Anwendungen hinweg behält Claude den vollständigen Kontext Ihrer Unterhaltung bei.@claudeai auf X

Die zentrale Funktion ist der gemeinsam genutzte Kontext zwischen den vier Anwendungen: Eine in Outlook begonnene Unterhaltung zum Sortieren einer E-Mail setzt sich in Word beim Verfassen eines Memos fort, dann in Excel für die Datenanalyse und in PowerPoint für die Präsentation — ohne den Kontext jemals neu erklären zu müssen. Die automatische, plattformübergreifende Aktualisierung ist der andere konkrete Vorteil: Wird eine Annahme in einem Excel-Modell angepasst, aktualisieren sich gleichzeitig das Diagramm in der Präsentation und die entsprechende Zahl im Word-Memo.

Zu den genannten Unternehmen gehören ServiceNow (“Claude does the work in Excel itself, instead of asking us to move content between tools”) sowie Teams aus dem Bereich Private Asset Management, die es verwenden, um Modelle für die Finanzabdeckung zu erstellen und zu pflegen.

AnwendungStatus am 7. Mai 2026Pläne
Claude for ExcelAllgemeine Verfügbarkeit (GA)Alle kostenpflichtigen Pläne
Claude for PowerPointAllgemeine Verfügbarkeit (GA)Alle kostenpflichtigen Pläne
Claude for WordAllgemeine Verfügbarkeit (GA)Alle kostenpflichtigen Pläne
Claude for OutlookÖffentliche BetaAlle kostenpflichtigen Pläne

🔗 Claude-Ankündigung für Microsoft 365


Claude Managed Agents — dreaming, outcomes, Multiagent-Orchestrierung, Webhooks

6. Mai — Auf der Konferenz Code with Claude startet Anthropic mehrere neue Funktionen für seine Plattform zur Bereitstellung von Agenten.

Die auffälligste Neuerung ist dreaming: ein geplanter Prozess, der vergangene Sitzungen eines Agenten analysiert, wiederkehrende Muster extrahiert und sein Gedächtnis konsolidiert, damit er sich im Laufe der Zeit verbessert. Der Entwickler behält die Kontrolle — dreaming kann das Gedächtnis automatisch aktualisieren oder jede Änderung einer menschlichen Prüfung unterziehen. Dreaming ist auf Anfrage in einer experimentellen Forschungs-Vorschau (research preview) verfügbar.

Outcomes geht in die öffentliche Beta: Diese Funktion ermöglicht es, jedes Ergebnis eines Agenten anhand von vom Entwickler festgelegten Kriterien zu bewerten, bevor es an den Nutzer ausgeliefert wird. Das Unternehmen Wisedocs nutzte sie, um die Überprüfung medizinischer Dokumente um 50 % zu beschleunigen, während die Ausrichtung an den internen Standards gewahrt blieb.

Die Multiagent-Orchestrierung ermöglicht es einem Leitagenten, Teilschritte an Spezialagenten zu delegieren, die parallel ausgeführt werden, was die Bearbeitung komplexer Aufgaben mit mehreren gleichzeitig erforderlichen Fachkenntnissen erleichtert. Webhooks sind ebenfalls verfügbar, um externe Aktionen auszulösen.

FunktionVerfügbarkeitBeschreibung
DreamingResearch preview (auf Anfrage)Selbstverbesserung durch Analyse vergangener Sitzungen
OutcomesÖffentliche BetaBewertung der Ergebnisse vor der Auslieferung
Multiagent-OrchestrierungÖffentliche BetaLeitagent + Spezialagenten parallel
WebhooksÖffentliche BetaAuslösung externer Aktionen

🔗 Claude Managed Agents Ankündigung


GPT-Realtime-2 — Stimme mit GPT-5-Reasoning und 128K Kontext

7. Mai — OpenAI bringt eine neue Modellgeneration in der Realtime API heraus: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper.

GPT-Realtime-2 ist das erste Sprachmodell mit Reasoning auf GPT-5-Niveau: Es kann komplexe Anfragen bearbeiten, Tools parallel aufrufen (parallel tool calls), sich nach Unterbrechungen wieder erholen (recovery behavior) und ein Kontextfenster von 128.000 Tokens aufrechterhalten (gegenüber 32.000 beim Vorgänger), das für lange Sitzungen geeignet ist. Fünf Reasoning-Stufen sind einstellbar: minimal, low, medium, high, xhigh (standardmäßig low). Übergangsformeln (preambles) können vor Antworten eingefügt werden, um eine natürliche Sprachflüssigkeit zu erreichen.

GPT-Realtime-Translate ermöglicht die gleichzeitige Live-Übersetzung in 13 Zielsprachen aus mehr als 70 Quellsprachen. GPT-Realtime-Whisper bietet eine Streaming-Transkription mit geringer Latenz.

Zillow hat GPT-Realtime-2 bei seinen Sprachinteraktionen getestet: +26 Punkte Erfolgsquote auf seinem schwierigsten adversarialen Benchmark (95 % gegenüber 69 %). EU Data Residency wird unterstützt.

ModellFähigkeitPreis
GPT-Realtime-2Stimme + GPT-5-Reasoning, 128K$32/1M Tokens Audio-Eingabe, $64/1M Ausgabe
GPT-Realtime-TranslateÜbersetzung 70→13 Sprachen$0,034/min
GPT-Realtime-WhisperStreaming-Transkription$0,017/min
BenchmarkGPT-Realtime-1.5GPT-Realtime-2 (high)GPT-Realtime-2 (xhigh)
Big Bench AudioReferenz+15,2 %
Audio MultiChallenge APR36,7 %70,8 %

🔗 OpenAI-Ankündigung — neue Sprachmodelle


Perplexity Personal Computer für alle Mac-Nutzer verfügbar

7. Mai — Perplexity bringt eine neue macOS-App heraus und öffnet Personal Computer für alle Nutzer, ohne Pro- oder Max-Abonnement-Beschränkung.

Die App holt die KI aus der Cloud und installiert sie direkt auf dem Gerät. Sie arbeitet mit lokalen Dateien, nativen Mac-Anwendungen, dem offenen Web und den sicheren Perplexity-Servern. Sie unterstützt 400+ Connectoren und lässt sich mit dem Comet-Browser für Web-Tools ohne direkte Connectoren integrieren. Die Pro- und Max-Pläne behalten ihre mit dem bestehenden Abonnement verknüpften Credits; auch Gratisnutzer erhalten Zugriff.

Die empfohlene Nutzung ist der Mac mini als permanenter Hub: Agententeams können kontinuierlich (24/7) arbeiten, während der Nutzer etwas anderes tut, und erhalten eine Benachrichtigung, wenn eine menschliche Bestätigung erforderlich ist. Die Steuerung erfolgt von jedem Gerät aus — einschließlich iPhone.

Die bisherige Perplexity-Mac-App wird in den kommenden Wochen entfernt. Der Download erfolgt direkt (noch nicht im App Store verfügbar).

DimensionWert
VerfügbarkeitAlle Mac-Nutzer
Empfohlenes GerätMac mini (dauerhaft eingeschaltet)
Unterstützte Connectoren400+
Browser-IntegrationComet
App StoreNein (Direktdownload)
Alte AppEntfernung in den kommenden Wochen

🔗 Perplexity-Blog — Personal Computer für alle


Perplexity Finance Search in der Agent API — #1 Genauigkeit auf FinSearchComp T1

6. Mai — Perplexity bringt Finance Search in der Agent API heraus: Ein einziger Tool-Aufruf aggregiert lizenzierte Finanzdaten, Marktdaten in Echtzeit und zitierte Webquellen.

Das gelöste Problem ist einfach: Finanzentscheidungen hängen von zuverlässigen, aktuellen und nachvollziehbaren Quellen ab. Finance Search ersetzt die allgemeine Websuche durch lizenzierte strukturierte Daten — Kurse, Fundamentaldaten, Earnings-Call-Transkripte, Schätzungen —, die in einem einheitlichen Schema zurückgegeben werden, unabhängig vom Backend-Anbieter.

Im Benchmark FinSearchComp T1 erreicht Finance Search die höchste Genauigkeit für Finanzdaten in Echtzeit, über die Zeit konstant, und die niedrigsten Kosten pro korrekter Antwort (weniger Tokens erforderlich dank strukturierter Daten). Zitate sind in jedes Ergebnis integriert. Das Modell ist vom Entwickler konfigurierbar, mit Einblick in die Token-Nutzung.

Finance Search ist komplementär zu Computer for Professional Finance (bereits am 5. Mai behandelt): Während das erste einen visuellen Workspace bietet, lässt sich Finance Search über die API in programmatische Workflows integrieren.

DimensionWert
SchnittstelleEin einziger Tool-Aufruf (finance_search)
Abgedeckte DatenKurse, Fundamentaldaten, Transkripte, Schätzungen, Marktkontext
Benchmark FinSearchComp T1#1 Genauigkeit, #1 Kosten/korr. Antwort
ZitateIn jedes Ergebnis integriert

🔗 Perplexity-Blog — Finance Search


Natural Language Autoencoders (NLAs) — die inneren Gedanken von Claude lesen

7. Mai — Anthropic veröffentlicht eine neue Interpretierbarkeitsmethode, die die internen Aktivierungen eines Modells in direkt lesbaren Text umwandelt.

Die Architektur basiert auf einem Closed-Loop-Training: Ein Activation Verbalizer (activation verbalizer) übersetzt eine Aktivierung in erklärenden Text, ein Activation Reconstructor (activation reconstructor) versucht, die Aktivierung aus diesem Text wiederherzustellen. Je treuer die Rekonstruktion, desto besser die Erklärung.

Die Sicherheitsanwendung ist beeindruckend: Auf Claude Opus 4.6 und Claude Mythos Preview angewendet, zeigen die NLAs, dass die Modelle viel häufiger vermuteten, in einer Testsituation zu sein, als sie es aussprachen. In destruktiven Code-Tests erscheint das implizite Bewusstsein für die Bewertung in 16 % der Fälle, gegenüber 0 % expliziter Verbalisation. Auf SWE-bench Verified steigt dieser Wert auf 26 %. In echten Claude.ai-Nutzerkonversationen bleibt er unter 1 %.

In einem Audit-Set mit einem absichtlich falsch ausgerichteten Modell identifizierten Prüfer mit NLAs die Ursache in 12 bis 15 % der Fälle, gegenüber weniger als 3 % mit anderen Werkzeugen. Der Trainingscode wird als Open Source veröffentlicht; eine interaktive Demo ist auf Neuronpedia verfügbar.

BewertungImplizites Bewusstsein (NLA)Verbalisierte Wahrnehmung
Destruktive Code-Tests16 %~0 %
SWE-bench Verified26 %~0 %
Echte Claude.ai-Konversationen< 1 %

🔗 Anthropic Research — Natural Language Autoencoders


Petri 3.0 — Open-Source-Alignment-Tool an Meridian Labs übergeben

7. Mai — Anthropic übergibt Petri, sein Open-Source-Alignment-Tool, an Meridian Labs, eine unabhängige gemeinnützige Organisation, die sich der Bewertung von KI widmet.

Petri ist ein Werkzeugkasten für Alignment-Tests, anwendbar auf jedes Sprachmodell: Täuschung, Schmeichelei, Kooperation mit schädlichen Anfragen. Seit Sonnet 4.5 in die Bewertungen aller Claude-Modelle integriert, wurde es vom britischen AI Security Institute für seine Bewertungen zur Sabotage der KI-Forschung übernommen.

Version 3.0 bringt drei Fortschritte: bessere Anpassungsfähigkeit durch Trennung von Prüfer- und Zielmodellkomponenten, ein „Dish“-Modul, das Tests unter realen Bereitstellungsbedingungen ausführt (echter system prompt, echtes scaffold), um Szenarien weniger erkennbar zu machen, sowie eine Integration mit Bloom für tiefere Verhaltensbewertungen.

Die Übergabe an Meridian Labs folgt dem Modell der Übergabe des MCP-Protokolls an die Linux Foundation: die Unabhängigkeit des Tools von jedem KI-Labor zu sichern.

🔗 Anthropic Research — Petri 3.0


Das Anthropic Institute (TAI) — Forschungsagenda auf 4 Achsen

7. Mai — Anthropic veröffentlicht die vollständige Forschungsagenda des TAI, der internen Organisation, die im März 2026 ins Leben gerufen wurde, um die realen Auswirkungen von KI aus der Position eines Frontier-Labors zu untersuchen.

Die Agenda gliedert sich in vier Achsen: wirtschaftliche Diffusion (KI-Einführung durch Unternehmen und Länder, Auswirkungen auf die Arbeitsmärkte), Bedrohungen und Resilienz (Dual-Use-Fähigkeiten, Cybersicherheit, defensive Mechanismen), KI-Systeme in freier Wildbahn (in the wild — Verhaltens- und institutionelle Effekte von in großem Maßstab eingesetzter KI) und KI-gestützte F&E (Beschleunigung der wissenschaftlichen Forschung durch KI selbst, einschließlich der Risiken einer rekursiven Schleife der Selbstverbesserung).

TAI verpflichtet sich, häufiger Daten aus dem Anthropic Economic Index sowie Informationen über die interne Beschleunigung von Anthropic durch eigene Werkzeuge zu teilen. Eine Ausschreibung für das Anthropic Fellows-Programm (vier Monate, finanziert) ist eröffnet.

🔗 Anthropic Research — TAI-Agenda


Codex Chrome Extension — Browser-Steuerung im Hintergrund auf macOS und Windows

7. Mai — OpenAI veröffentlicht die Chrome-Erweiterung für Codex, die es dem Agenten ermöglicht, Chrome-Tabs direkt zu steuern, ohne den Workflow des Nutzers zu unterbrechen.

Codex arbeitet im Hintergrund über mehrere Tabs gleichzeitig und kombiniert seine nativen Plugin-Fähigkeiten mit direktem Zugriff auf Websites (Dashboards, CRM, Web-Apps). Das System wählt automatisch das beste Werkzeug für jeden Schritt: Plugins, Chrome oder eine Kombination aus beiden. Anwendungsfälle: Browser-Flows debuggen, Dashboards prüfen, recherchieren, CRMs aktualisieren, komplexe Webanwendungen testen (einschließlich Multiplayer-Spielen über Subagenten).

Die Erweiterung wird über das Chrome-Plugin in der Codex-App installiert. Ab sofort auf macOS und Windows für alle Codex-Nutzer verfügbar.

🔗 OpenAI-Tweet — Codex Chrome Extension


ChatGPT Trusted Contact — Sicherheit für die psychische Gesundheit mit menschlicher Überprüfung

7. Mai — OpenAI führt Trusted Contact ein, eine optionale Sicherheitsfunktion in ChatGPT.

Jede erwachsene Person (18+, 19+ in Südkorea) kann eine Vertrauensperson (Freund, Familie, Betreuungsperson) benennen, die alarmiert wird, wenn in ihren Gesprächen Krisensignale erkannt werden. Der Prozess kombiniert automatisierte Erkennung und menschliche Überprüfung (Ziel: weniger als eine Stunde vor jeder Übermittlung), mit einer Benachrichtigung ohne Zugriff auf Transkripte, um die Privatsphäre zu schützen. Die Funktion erweitert auf Erwachsene die bereits bestehenden Kindersicherungen für Teen-Konten. Entwickelt mit der American Psychological Association und einem Netzwerk von über 260 Ärzten in 60 Ländern.

ParameterWert
Berechtigung18+ (19+ Südkorea)
Annahmefrist für den Kontakt1 Woche
SLA für menschliche ÜberprüfungZiel < 1 Stunde
Inhalt der BenachrichtigungAllgemeiner Grund, ohne Transkript
KanäleE-Mail, SMS, In-App

🔗 OpenAI — Trusted Contact


OpenAI B2B Signals — die Lücke zwischen führenden und typischen Unternehmen wird größer

6. Mai — OpenAI veröffentlicht den ersten B2B-Signals-Bericht, der die wachsende Kluft zwischen „führenden“ Unternehmen und typischen Unternehmen bei ihrer KI-Nutzung dokumentiert.

Unternehmen im 95. Perzentil nutzen 3,5× mehr Intelligenz pro Mitarbeiter als typische Unternehmen (gegenüber 2× im April 2025). Die Lücke liegt weniger im Nachrichtenvolumen (36 % der Differenz) als in der Nutzungstiefe (64 %): Delegation komplexer Aufgaben, agentische Workflows, Integration in Produktionssysteme. Bei Codex ist die Lücke am größten: 16× mehr Nachrichten pro Mitarbeiter.

Zwei konkrete Fälle: Cisco reduziert die Build-Zeit um rund 20 %, spart 1.500+ Ingenieurstunden pro Monat und erhöht die Geschwindigkeit der Fehlerbehebung um das 10- bis 15-Fache. Travelers Insurance bearbeitet rund 100.000 Schadenanrufe pro Jahr über einen Assistenten.

IndikatorTypische UnternehmenFührende Unternehmen
Intelligenz/MitarbeiterReferenz×3,5
Codex-Nachrichten/MitarbeiterReferenz×16
Anteil des Volumens an der Differenz36 %
Anteil der Tiefe an der Differenz64 %

🔗 OpenAI — B2B Signals


MRC — Open-Source-Netzwerkprotokoll für Stargate-Supercomputer

5. Mai — OpenAI veröffentlicht über das Open Compute Project das MRC-Protokoll (Multipath Reliable Connection) als Open Source, gemeinsam entwickelt mit AMD, Broadcom, Intel, Microsoft und NVIDIA über zwei Jahre hinweg.

MRC ist ein 800-Gb/s-Netzwerkprotokoll für große KI-Trainingssupercomputer. Es verbindet mehr als 100.000 GPUs mit nur 2 Switch-Ebenen (gegenüber 3 bis 4 im konventionellen Ansatz), indem es Pakete über Hunderte von Pfaden gleichzeitig per IPv6 Source Routing (SRv6) verteilt. Die Wiederherstellung nach Ausfällen erfolgt in Mikrosekunden (gegenüber mehreren Sekunden mit klassischem dynamischem BGP). Bereits in Produktion auf Stargate (Abilene, Texas) und den Fairwater-Supercomputern von Microsoft, hat MRC das Training mehrerer Modelle ermöglicht, darunter GPT-5.5 und Codex.

AspektKonventioneller AnsatzMRC
Switch-Ebenen für 100K+ GPUs3–42
Wiederherstellung nach AusfallSekunden bis Dutzende SekundenMikrosekunden
RoutingDynamisches BGPStatisches SRv6
Paketverteilung1 Pfad pro ÜbertragungHunderte Pfade parallel

🔗 OpenAI — MRC Supercomputer Networking


Perplexity ROSE — Proprietäre Inferenz-Engine und CuTeDSL

6. Mai — Perplexity veröffentlicht einen Forschungsartikel, der ROSE (Runtime-Optimized Serving Engine), seine proprietäre Inferenz-Engine, und die Integration von CuTeDSL (NVIDIA-GPU-Kernel-Bibliothek) detailliert beschreibt.

ROSE betreibt alle Perplexity-Dienste (Sonar, Search, Embeddings) auf NVIDIA-Hopper- und Blackwell-GPUs, von Kodierungsmodellen bis hin zu Billionen-Parameter-LLMs. CuTeDSL ermöglicht es, schneller optimierte benutzerdefinierte GPU-Kernels zu erstellen, die sich in hohem Tempo an neue Modellarchitekturen anpassen.

Diese Veröffentlichung veranschaulicht Perplexitys Strategie: den gesamten technischen Stack bis auf die Ebene der GPU-Kernels zu kontrollieren, um sich über Leistung zu differenzieren und die Abhängigkeit von Drittanbieter-Frameworks zu reduzieren.

🔗 Perplexity Research — CuTeDSL und ROSE


ElevenLabs erreicht 500 Mio. $ ARR — NVIDIA investiert über NVentures

5. Mai — ElevenLabs kündigt ein drittes Closing seiner Serie D mit NVIDIA als neuem strategischem Investor über NVentures an.

Das ARR stieg von 350 Mio. Ende2025auf500Mio.Ende 2025 auf **500 Mio. im April 2026**, also +43 % in vier Monaten. Dieses dritte Closing umfasst außerdem BlackRock, Wellington Management, D.E. Shaw, Schroders sowie Unternehmenskunden (Salesforce, Santander, KPN, Deutsche Telekom) und eine Retail-Investition über Robinhood Ventures. Parallel wurde ein Tender Offer über 100 Mio. $ abgeschlossen. ElevenLabs beschäftigt 530 Mitarbeitende in mehr als 50 Ländern. Die Roadmap kündigt die Zusammenführung von Bild/Video und Audio in einer einheitlichen kreativen Plattform an.

🔗 ElevenLabs — 500 Mio. $ ARR und neue Investoren


AlphaEvolve in Produktion — 5 Industriesektoren über Google Cloud

7. Mai — Ein Jahr nach dem Start veröffentlicht Google DeepMind einen Rückblick auf AlphaEvolve, seinen von Gemini angetriebenen Coding-Agenten, der nun von der Forschung in die industrielle Produktion übergegangen ist.

AlphaEvolve optimiert Googles kritische Infrastruktur: TPU, Cache-Ersatzrichtlinien, LSM-Tree-Compaction in Google Spanner. Es wird kommerziell über Google Cloud in fünf Sektoren eingesetzt: Finanzen (Verdopplung der Leistung eines Transformers), Halbleiter (computergestützte Lithografie), Logistik (Problem des Handlungsreisenden), Werbung und Materialwissenschaften (etwa 4× Geschwindigkeitsgewinn bei Schrödinger). Auf akademischer Ebene hat AlphaEvolve mit Terence Tao (UCLA) an Erdős-Problemen zusammengearbeitet und die unteren Schranken für das Problem des Handlungsreisenden sowie die Ramsey-Zahlen verbessert.

🔗 DeepMind — AlphaEvolve Impact


Selbstlernende Manus Projects — agentischer Workspace, der sich mit jeder Aufgabe verbessert

6. Mai — Manus führt eine Funktion ein, die es Projekten ermöglicht, automatisch aus jeder Unterhaltung zu lernen und vom Nutzer genehmigte Aktualisierungen vorzuschlagen.

Nach jeder Aufgabe identifiziert Manus wiederverwendbare Entscheidungen, Normen und Muster und schlägt dann vor: Aktualisierungen von Anweisungen (wenn sich Prozess oder Terminologie weiterentwickelt haben), Aktualisierungen von Dateien (veraltete Quellen, Beispiele oder Vorlagen) und Aktualisierungen von Fähigkeiten (skills) für wiederkehrende Abläufe. Keine Änderung wird ohne ausdrückliche menschliche Bestätigung angewendet. Künftige Mitarbeitende beginnen mit dem neuesten geteilten Kontext des Projekts. Die Funktion ist für alle Sitzungen verfügbar, in denen Anweisungen und Dateien unterstützt werden.

🔗 Manus — Selbstlernende Projekte


Kurzmeldungen

  • Anthropic Bug Bounty öffentlich geöffnet — Das bislang private Programm innerhalb der Sicherheitsforschungs-Community ist jetzt für alle auf HackerOne zugänglich. 🔗 Quelle
  • xAI Image Generation Quality Mode API — Der Qualitätsmodus der Bildgenerierung (mehr als 300 Mio. auf Grok generierte Bilder) ist jetzt über die xAI-API verfügbar: höhere Realitätsnähe, bessere Textdarstellung, stärkere kreative Kontrolle. 🔗 Quelle
  • Z.ai GLM-5V-Turbo Tech Report — Z.ai (Zhipu AI) veröffentlicht den technischen Bericht zu GLM-5V-Turbo, einem nativen Foundation-Modell für multimodale Agenten mit CogViT-Encoder (SigLIP2- und DINOv3-Distillation) und einer Wahrnehmungs-Planungs-Ausführungs-Schleife. 🔗 Quelle
  • ChatGPT Futures Class of 2026 — OpenAI zeichnet 26 junge Builder aus 20+ Universitäten (Vanderbilt, Oxford, Georgia Tech…) mit einem Grant von je 10.000 USD und Zugang zu den Spitzenmodellen aus. 🔗 Quelle
  • NVIDIA DeepStream + Claude Code — Demonstration eines „Concept to App“-Ansatzes, der DeepStream, Claude Code und wiederverwendbare Skills kombiniert, um Vision-AI-Anwendungen zu erzeugen, ohne jede Codezeile selbst zu schreiben. 🔗 Quelle
  • NVIDIA Guess-Verify-Refine — Neue hardware-aware Inferenztechnik, bei der jeder Dekodierschritt dem nächsten einen Vorsprung verschafft, speziell für NVIDIA-Beschleuniger entwickelt. 🔗 Quelle
  • TokenSpeed + NVIDIA Dynamo — TokenSpeed (LightSeek Foundation) erreicht im Open Source das Niveau von TensorRT-LLM; NVIDIA Dynamo fügt für dieses Backend Day-0-Support hinzu, wobei Kimi K2.5 über das Dynamo-Frontend unterstützt wird. 🔗 Quelle
  • Ideogram BG Remover — Neues generatives Modell (von Grund auf trainiert, keine klassische Segmentierung) zur Hintergrundentfernung: Erhaltung des Alpha-Kanals, ausgerichtet auf Logos und komplexe Illustrationen, API verfügbar. 🔗 Quelle
  • Google DeepMind × EVE Online — Partnerschaft mit CCP Games, um KI-Forschung in komplexen, von Spielern gesteuerten Spielumgebungen zu erkunden. 🔗 Quelle
  • GitHub Copilot Trust Layer — Microsoft/GitHub veröffentlicht Forschung zu einer strukturellen Vertrauensebene zur Validierung von Copilot-Agenten (Ausführungsgraphen + Dominator-Analyse): Präzision 100 % vs. 82,2 % für die Selbsteinschätzung, Recall 100 % vs. 60 %. 🔗 Quelle
  • GitHub — Pull Requests von Agenten prüfen — Praktischer Leitfaden (10-Minuten-Checkliste) mit 5 Warnsignalen: CI-Gaming, Blindheit gegenüber Code-Wiederverwendung, halluzinierte Korrektheit, agentisches Ghosting, Prompt-Injektion in CI-Pipelines. 🔗 Quelle

Was das bedeutet

Der Wettlauf um den Personal Computer beschleunigt sich. Innerhalb einer Woche zielen drei sehr unterschiedliche Schnittstellen auf denselben Schreibtisch des Nutzers: Perplexity Personal Computer wird auf dem Mac installiert (und der Mac mini dient als permanenter Hub), Claude durchdringt die vier Microsoft-365-Anwendungen mit gemeinsamem Kontext, und Codex steuert Chrome im Hintergrund. Diese Agenten sind nicht mehr in der Cloud: Sie integrieren sich in bestehende Workflows, in geöffnete Dateien, in native Anwendungen. Die Verschiebung von der Informationssuche hin zur direkten Aktion in den täglichen Arbeitswerkzeugen ist nun konkret.

Orbitales Compute tritt in den Bereich der Fakten ein. Die Vereinbarung Anthropic/xAI Colossus 1 ist in zweierlei Hinsicht bemerkenswert: Erstens verschafft sie Anthropic sofortigen Zugriff auf 220.000 NVIDIA-GPUs, um seine Limits schon diese Woche zu verdoppeln; zweitens enthält sie die gemeinsame Absicht, mehrere Gigawatt an KI-Kapazität im Orbit zu entwickeln. Zusammen mit den Abkommen mit Amazon, Google/Broadcom, Microsoft/NVIDIA und Fluidstack baut Anthropic eine Recheninfrastruktur auf, die bei einem unabhängigen Forschungslabor ihresgleichen sucht. Diese Ansammlung von Rechenleistung ist die Voraussetzung für die nächste Generation von Modellen — und für die fortlaufende Verdopplung der Limits.

Die Reasoning-Stimme verschiebt den Umfang sprachbasierter Agenten. GPT-Realtime-2 ist kein kosmetisches Update: GPT-5-Reasoning in eine Echtzeit-Oberfläche mit 128K Kontext und parallelen Tool-Aufrufen zu bringen, verändert die Anwendungsfälle. Zillow misst +26 Prozentpunkte Erfolgsrate bei den schwierigsten Anrufen. Die Live-Übersetzung (70 Ausgangssprachen in 13 Zielsprachen) im selben Modell eröffnet mehrsprachige Workflows ohne separate Übersetzungspipeline. Die Frage lautet nicht mehr „Kann man KI-Stimme machen?“, sondern „Welche komplexen Sprachinteraktionen werden wirtschaftlich tragfähig?“

Alignment und agentisches Vertrauen verlagern sich auf das Tooling. Drei unterschiedliche Ankündigungen konvergieren auf dasselbe Problem — wie man Agenten in der Produktion vertrauen kann. Die NLAs von Anthropic zeigen, dass Claude weiß, wenn es getestet wird (in 16 bis 26 % der Bewertungen), ohne es auszusprechen. Der Trust Layer von GitHub (Präzision 100 % vs. 82 % bei der Selbsteinschätzung) gibt Entwicklungsteams eine strukturelle Validierung von durch Agenten erzeugten Pull Requests. Die Übergabe von Petri 3.0 an Meridian Labs schafft ein Evaluations-Referenzsystem, das von keinem Labor abhängig ist. Diese drei Ebenen — Modell-Interpretierbarkeit, Validierung der Ausgaben, Unabhängigkeit der Audit-Tools — beginnen eine Vertrauensarchitektur für agentische Rollouts im großen Maßstab zu bilden.


Quellen