Trzy ogłoszenia zdominowały koniec miesiąca: OpenAI zamknął największą prywatną rundę finansowania w historii technologii, pozyskując 122 miliardy dolarów przy wycenie 852 miliardów, Qwen zrobił krok naprzód z natywnym modelem omnimodalnym zdolnym jednocześnie widzieć, słyszeć i programować, a szef Claude Code opublikował wiralowy wątek ujawniający 15 mało znanych funkcji narzędzia. Tydzień był także naznaczony uruchomieniem Secure Intelligence Institute przez Perplexity, nowymi narzędziami GitHub Copilot oraz inicjatywami infrastrukturalnymi Runway i NVIDIA.
OpenAI pozyskuje 122 miliardy dolarów
31 marca — OpenAI ogłasza zamknięcie swojej ostatniej rundy finansowania z zaangażowanym kapitałem w wysokości 122 miliardów dolarów, przy wycenie post-money wynoszącej 852 miliardy dolarów. To jedna z największych prywatnych rund finansowania w historii technologii.
Rundę współprowadzą SoftBank i a16z, z udziałem strategicznym Amazon, NVIDIA i Microsoft. Po raz pierwszy OpenAI rozszerzył udział na inwestorów indywidualnych za pośrednictwem banków, pozyskując ponad 3 miliardy dolarów od osób prywatnych. ARK Invest włączy również OpenAI do kilku funduszy indeksowych notowanych (ETF).
W związku z tą rundą OpenAI publikuje metryki wzrostu:
| Wskaźnik | Wartość |
|---|---|
| Użytkownicy aktywni tygodniowo ChatGPT | 900 milionów |
| Subskrybenci płatni ChatGPT | 50 milionów |
| Miesięczne przychody | 2 miliardy dolarów |
| Tokeny przetwarzane przez API (na minutę) | 15 miliardów |
| Użytkownicy tygodniowo Codex | 2 miliony (+5× w 3 miesiące) |
| Miesięczny wzrost Codex | +70% |
Firma opisuje roadmapę skoncentrowaną wokół „IA superapp” (AI superapp): zunifikowanego interfejsu łączącego ChatGPT, Codex, wyszukiwanie webowe i agentów AI. Celem jest przekroczenie miliarda aktywnych użytkowników tygodniowo. Przedsiębiorstwa już stanowią 40% przychodów.
GPT-5.4, najnowszy model OpenAI, opisany jest jako przynoszący poprawy w rozumowaniu, kodowaniu i w przepływach pracy opartych na agentach (agentic workflows). Wzrost OpenAI przedstawiany jest jako czterokrotnie szybszy niż Google i Meta na ich odpowiednim etapie.
Qwen3.5-Omni: natywny model omnimodalny
29 marca — Alibaba Qwen wprowadza Qwen3.5-Omni, model zaprojektowany natywnie do przetwarzania tekstu, obrazów, audio i wideo w jednym zunifikowanym modelu. W przeciwieństwie do klasycznych podejść multimodalnych, które dodają modalności warstwowo, ten model przetwarza te wejścia równocześnie.
Surowe możliwości są znaczące: do 10 godzin audio lub 400 sekund wideo 720p natywnie, trenowany na ponad 100 milionach godzin danych, rozpoznawanie mowy w 113 językach i ekspresja w 36 językach.
Główna funkcja: Audio-Visual Vibe Coding
Najbardziej bezpośrednio użyteczną funkcją jest „Audio-Visual Vibe Coding”: użytkownik opisuje swój projekt na głos przed kamerą, a Qwen3.5-Omni-Plus generuje funkcjonalną stronę internetową lub grę. To zastosowanie koncepcji kodowania przez intencję (vibe coding) rozszerzone na audio i wideo w czasie rzeczywistym.
Porównanie wydajności
| Kategoria | Qwen3.5-Omni-Plus | Gemini 3.1 Pro |
|---|---|---|
| DailyOmni (audio/vision) | 84,6 | 82,7 |
| WorldScene | 62,8 | 65,5 |
| QualocommInteractive | 68,5 | 52,3 |
| OmniClear | 64,8 | 55,5 |
| IFEval (tekst) | 89,7 | 93,5 |
| MMLU-Redux | 94,2 | 90,0 |
Model przewyższa Gemini 3.1 Pro w benchmarkach audio i jest równorzędny pod względem rozumienia audio-wizualnego.
Możliwości głosowe
- Precyzyjna kontrola głosu: regulacja emocji, tempa i głośności w czasie rzeczywistym
- Klonowanie głosu (Voice Cloning) z krótkiego próbki (wdrożenie inżynieryjne zapowiedziane wkrótce)
- Inteligentny turn-taking (Semantic Interruption), który rozumie rzeczywistą intencję i ignoruje hałas otoczenia
- Zintegrowane wyszukiwanie webowe i wywołania funkcji złożonych
Rodzina modeli
| Wariant | Pozycjonowanie |
|---|---|
| Qwen3.5-Omni-Plus | Wydajność SOTA, szczegółowe opisy audio-wizualne |
| Qwen3.5-Omni-Plus-Realtime | Kontrola głosu, WebSearch, Voice Clone, Semantic Interruption |
| Qwen3.5-Omni-Flash | Szybkość |
| Qwen3.5-Omni-Light | Lekkość |
Dostęp przez chat.qwen.ai (przycisk VoiceChat/VideoChat) oraz API Alibaba Cloud.
Uwaga dodatkowa: Qwen 3.6 Plus Preview jest dostępny bezpłatnie na OpenRouter przez ograniczony czas — wymiany są zbierane w tym okresie w celu ulepszenia modelu.
15 ukrytych funkcji Claude Code
30 marca — Boris Cherny, szef Claude Code w Anthropic, opublikował wątek ujawniający 15 słabo udokumentowanych funkcji narzędzia. Wątek osiągnął 3,6 miliona wyświetleń, 2 000 repostów i 22 000 polubień.
“I wanted to share a bunch of my favorite hidden and under-utilized features in Claude Code. I’ll focus on the ones I use the most. Here goes.”
🇵🇱 Chciałem podzielić się kilkoma z moich ulubionych funkcji, mało znanych i rzadko używanych w Claude Code. Skupię się na tych, których używam najczęściej. Zaczynajmy. — @bcherny na X
Mobilność i sesje zdalne
- Aplikacja Claude na iOS i Android zawiera kartę Code pozwalającą programować z telefonu
--teleport(lub/teleport) pozwala przenieść sesję z chmury na maszynę lokalną;/remote-controlumożliwia sterowanie sesją lokalną z dowolnego urządzenia- Cowork Dispatch: bezpieczne zdalne sterowanie aplikacją Claude Desktop z telefonu, z dostępem do serwerów MCP (Model Context Protocol), przeglądarki itp.
Automatyzacja
/loopi/schedulepozwalają uruchamiać Claude automatycznie w określonych odstępach czasu, do tygodnia — Cherny używa/loop 5m /babysitdo ciągłego przeglądu i rebase’u kodu- Hooki (
SessionStart,PreToolUseitd.) umożliwiają wstrzykiwanie logiki deterministycznej w cykl agenta, np. aby kierować prośby o uprawnienia do WhatsApp
Paralelizacja
/batchrozdziela pracę na dziesiątki, setki, a nawet tysiące agentów równolegle — przydatne przy migracjach kodu na dużą skalęclaude -wuruchamia sesje równoległe w odrębnych przestrzeniach roboczych git (git worktrees)
Codzienna produktywność
/btwpozwala zadać szybkie pytanie, podczas gdy agent pracuje, bez przerywania bieżącego zadania/branchpozwala rozgałęzić (fork) sesję; lub przez CLI:claude --resume <session-id> --fork-session--agentumożliwia definiowanie spersonalizowanych agentów w.claude/agents/z systemem promptów i konfigurowalnymi narzędziami--add-dir//add-dirdaje Claude dostęp do wielu folderów lub repozytoriów jednocześnie--bareprzyspiesza uruchamianie SDK do 10× (uniknięcie ładowania CLAUDE.md, parametrów i serwerów MCP)/voiceaktywuje wpisywanie głosowe (spacja w CLI, dedykowany przycisk w Desktop, dyktowanie iOS)- Rozszerzenie Chrome (beta): Claude Code + Chrome do testowania aplikacji webowych, debugowania logów konsolowych i automatyzacji przeglądarki
Claude Code: rozszerzony auto mode dla Enterprise i API
30 marca — auto mode w Claude Code, uruchomiony 24 marca dla użytkowników Pro i Max, jest teraz dostępny na planie Enterprise i dla deweloperów korzystających z API. Funkcja pozwala Claude samodzielnie podejmować decyzje o zatwierdzaniu działań (zapisywanie plików, polecenia bash) zamiast pytania użytkownika na każdym kroku.
Aby ją włączyć w środowisku Enterprise lub przez API:
claude --enable-auto-mode
Auto mode opiera się na wewnętrznych klasyfikatorach, które oceniają ryzyko każdej akcji przed jej wykonaniem, oferując równowagę między trybem permisywnym (--dangerously-skip-permissions) a ręcznymi zatwierdzeniami.
30 marca — Cowork Dispatch może teraz rozpoczynać zadania kodowania z określonym modelem, wymienionym bezpośrednio w instrukcji w języku naturalnym.
Perplexity uruchamia Secure Intelligence Institute
31 marca — Perplexity uruchamia Secure Intelligence Institute (SII), laboratorium badawcze poświęcone bezpieczeństwu, prywatności i pewności systemów zaawansowanej AI. Instytut kieruje dr Ninghui Li — Samuel D. Conte Professor na Purdue University, Fellow ACM i IEEE, były przewodniczący ACM SIGSAC — z partnerstwami akademickimi obejmującymi grupę kryptografii stosowanej Dana Boneha i Gong Lab Neila Gonga.
SII publikuje trzy pierwsze prace:
| Publikacja | Typ | Opis |
|---|---|---|
| BrowseSafe | Benchmark open-source | 14 700+ scenariuszy rzeczywistych ataków, 14 kategorii ryzyka dla nawigacji AI |
| Ubezpieczenie agentów NIST/CAISI | Polityka | Odpowiedź na RFI (Request for Information) dotyczące zabezpieczania agentów autonomicznych |
| Building Security Into Comet | Architektura | Obrona w głębi przedziału dla przeglądarki AI Comet |
SII przekłada swoje badania na konkretne ulepszenia systemów Perplexity i dzieli się wynikami z ekosystemem AI.
🔗 Secure Intelligence Institute
Cohere i Ensemble: LLM specjalizowany w zarządzaniu cyklem przychodów dla ochrony zdrowia
31 marca — Cohere i Ensemble ogłaszają budowę pierwszego natywnego dużego modelu językowego (LLM) do zarządzania cyklem przychodów (Revenue Cycle Management / RCM) w amerykańskim sektorze opieki zdrowotnej.
Ensemble oferuje rozwiązanie end-to-end dla szpitali i grup medycznych, od umawiania wizyt po końcową fakturację. W przeciwieństwie do konkurencyjnych ofert, które opakowują ogólne LLM w wyspecjalizowane prompty, ten model jest w pełni dostosowany do rodziny Command firmy Cohere.
| Obszar | Zdolność |
|---|---|
| Finansowy | Prognozowanie odrzuceń przed wysłaniem, ciągła kontrola jakości fakturowania |
| Kliniczny | Wsparcie dokumentacji przy punkcie opieki, składanie dossier wywołania |
| Agentowy | Orkiestracja wieloetapowego cyklu przychodów |
Model trenowano na danych pre-treningowych Cohere, logach operacyjnych Ensemble, publicznych źródłach wiedzy RCM oraz adnotacjach ekspertów branżowych. Ramy oceny (benchmark) specyficzne dla domeny współtworzone będą mierzyć wydajność względem ogólnych LLM w rzeczywistych zadaniach RCM.
GitHub Copilot: rozwój agent-first i integracja ze Slack
31 marca — Tyler McGoffin, starszy badacz w zespole Copilot Applied Science w GitHub, publikuje relację z budowy wewnętrznego narzędzia, gdzie Copilot pełni rolę głównego agenta do kodowania. Narzędzie automatyzuje analizę trajektorii agentów AI na benchmarkach takich jak TerminalBench2 i SWEBench-Pro.
Opisane praktyki: użycie trybu /plan przed kodowaniem, tworzenie “testów kontraktowych” (contract tests) modyfikowanych wyłącznie przez człowieka, szczegółowe prompty zamiast zwięzłych oraz automatyczna cotygodniowa konserwacja przez /plan Review the code for any missing tests.... Wniosek: cechy dobrego inżyniera (planowanie, kontekst, komunikacja) są takie same przy efektywnej współpracy z agentem AI.
30 marca — Aplikacja GitHub dla Slack integruje teraz Copilot, aby tworzyć issues GitHub bezpośrednio z Slacka w języku naturalnym. Wystarczy wspomnieć @GitHub w dowolnym kanale i opisać zadanie.
| Funkcja | Szczegóły |
|---|---|
| Tworzenie w języku naturalnym | Opis → zorganizowane issues (tytuł, treść, przypisani, etykiety, milestone’y) |
| Pod-issues | Rozbijanie pracy na issues rodzic/dziecko z jednego komunikatu |
| Tryb konwersacji | Iteracja nad issues przed ich utworzeniem |
31 marca — GitHub prezentuje Copilot SDK umożliwiający integrowanie przepływów pracy opartych na agentach (agentic workflows) w aplikacjach zewnętrznych według 3 modeli architektonicznych.
🔗 Blog GitHub - Rozwój napędzany przez agentów 🔗 Changelog GitHub - Tworzenie issues z Slack
Runway: fundusz inwestycyjny i program dla startupów
31 marca — Runway uruchamia dwie równoległe inicjatywy.
Runway Fund to fundusz inwestycyjny dla startupów we wczesnej fazie (early-stage) w obszarach AI, mediów i symulacji świata. Początkowe zobowiązanie do 10 milionów dolarów, z inwestycjami sięgającymi do 500 000 dolarów w pre-seed i seed. Skupienie na trzech osiach: badaniach AI (modele świata i generatywna AI), nowych aplikacjach (warstwa aplikacyjna nad LLMs) oraz nowych mediach i treściach. Inwestycje dokonane już w Cartesia, LanceDB i Tamarind Bio.
Runway Builders to program wsparcia dla startupów od seed do serii C budujących produkty z wideo generatywnym i konwersacyjną AI w czasie rzeczywistym. Uczestnicy otrzymują kredyty API, najwyższe limity przepustowości i dostęp do prywatnej społeczności.
🔗 Runway Fund 🔗 Runway Builders
NVIDIA i Emerald AI: elastyczne „fabryki AI” w sieci energetycznej
31 marca — NVIDIA i Emerald AI przedstawiają na CERAWeek nowe podejście do fabryk AI (AI factories): traktowanie ich jako elastyczne zasoby sieci energetycznej zamiast obciążeń statycznych. Architektura opiera się na NVIDIA Vera Rubin DSX i platformie Conductor od Emerald AI.
Partnerzy energetyczni ogłoszeni: AES, Constellation, Invenergy, NextEra Energy, Nscale Energy i Vistra. Powiązane ogłoszenia:
- Maximo: robotyczna instalacja słoneczna AI o mocy 100 MW działająca w Bellefield z NVIDIA Isaac Sim
- TerraPower + SoftServe: cyfrowy bliźniak (digital twin) NVIDIA Omniverse w celu skrócenia czasu projektowania elektrowni jądrowych Natrium
- Adaptive Construction Solutions: krajowy program szkoleniowy do budowy fabryk AI
- GE Vernova, Schneider Electric, Vertiv: zatwierdzone projekty referencyjne (reference designs) dla Vera Rubin
Jensen Huang opisuje energię jako podstawową warstwę „piętrowego ciasta AI” (five-layer AI cake).
W skrócie
Gemini Live na Gemini 3.1 Flash Live — 30 marca — Google potwierdził wdrożenie modelu Gemini 3.1 Flash Live w aplikacji Gemini Live, dostępnego dla wszystkich użytkowników. Ta zmiana (ogłoszona 26 marca) przynosi bardziej naturalne rozmowy audio i lepszą dokładność w hałaśliwym otoczeniu. 🔗 Tweet @GeminiApp
Manus: sterowanie Desktopem z telefonu — 30 marca — Manus dodaje możliwość sterowania aplikacją Desktop z poziomu smartfona: uruchamianie zadań, dostęp do plików i uruchamianie przepływów pracy bez dotykania komputera. 🔗 Tweet @ManusAI
Midjourney V8 teaser — 29 marca — David Holz (założyciel Midjourney) zapowiada wersję V8 „radicalement différente”, „arriving very soon”. Brak podanej daty. 🔗 Tweet @DavidSHolz
Claude Code v2.1.87 — Naprawiono błąd w Cowork Dispatch, przez który wiadomości nie były dostarczane. 🔗 CHANGELOG GitHub
Co to oznacza
Pozyskanie kapitału przez OpenAI wyceniające firmę na 852 miliardy zaznacza punkt zwrotny: przy takich liczbach luka między czołowymi graczami a resztą sektora pogłębia się strukturalnie. Z 900 milionami użytkowników tygodniowo i celem na miliard, ChatGPT staje się infrastrukturą masową, nie tylko produktem technologicznym.
Wprowadzenie Qwen3.5-Omni ilustruje rosnącą konkurencję w obszarze modeli omnimodalnych. Audio-Visual Vibe Coding stanowi konkretne rozwinięcie kodowania intencji (vibe coding) — przejście od tekstu do głosu i wideo jako głównego interfejsu wobec AI generatywnej.
W obszarze narzędzi dla deweloperów, wątek Borisa Cherny ujawnia, że Claude Code zgromadził zaawansowane funkcje (masowa paralelizacja z wykorzystaniem /batch, automatyzacja przez hooks, sesje rozproszone), które pozostawały mało znane z powodu braku widocznej dokumentacji. Rozszerzenie trybu auto na plany Enterprise podąża klasyczną ścieżką: weryfikacja w podglądzie, a następnie stopniowe wdrożenie.
Wreszcie, utworzenie Secure Intelligence Institute przez Perplexity oraz inicjatywy Cohere w obszarze zdrowia wskazują na trend: podmioty drugiego szeregu próbują wyróżnić się na specjalistycznych pionach (bezpieczeństwo AI, regulowana opieka zdrowotna) zamiast konkurować bezpośrednio na polu modeli ogólnych.
Źródła
- OpenAI - Przyspieszanie następnej fazy AI
- Tweet OpenAI - Pozyskanie funduszy
- Tweet Alibaba Qwen - Qwen3.5-Omni
- Wątek Boris Cherny - 15 funkcji Claude Code
- Tweet @claudeai - Tryb auto Enterprise
- Tweet @noahzweben - Model Dispatch
- CHANGELOG Claude Code — GitHub
- Perplexity - Secure Intelligence Institute
- Tweet Perplexity - SII
- Blog Cohere - LLM RCM dla zdrowia
- Blog GitHub - Rozwój sterowany agentami
- Changelog GitHub - Tworzenie issue ze Slacka z Copilot
- Runway Fund
- Runway Builders
- Blog NVIDIA - Fabryki AI
- Tweet @GeminiApp - Gemini Live 3.1 Flash
- Tweet @ManusAI - Sterowanie telefonem
- Tweet @DavidSHolz - Midjourney V8
- Tweet @OpenRouter - Zapowiedź Qwen 3.6 Plus
Ten dokument został przetłumaczony z wersji fr na język pl przy użyciu modelu gpt-5-mini. Aby uzyskać więcej informacji na temat procesu tłumaczenia, zobacz https://gitlab.com/jls42/ai-powered-markdown-translator