Luma AI wprowadza Uni-1, model łączący rozumowanie i generowanie pikseli w jednym przebiegu, zdobywając 6,1 miliona odsłon w kilka dni. Tymczasem Perplexity wdraża swoje API w Samsung Browsing Assist na ponad miliardzie urządzeń, Claude Code v2.1.86 przynosi około piętnastu poprawek, a GitHub Copilot CLI wprowadza generowanie testów jednostkowych przez agentów w trybie autopilot.
Luma Uni-1 — Zunifikowane rozumowanie i generowanie pikseli
23 marca — Luma AI ogłosiła Uni-1, model, który opisuje jako „nowy typ modelu, który myśli i generuje piksele jednocześnie”. W przeciwieństwie do klasycznych modeli dyfuzyjnych, które najpierw tworzą reprezentację latentną, a potem ją dekodują, Uni-1 łączy rozumowanie i generowanie w jednym procesie.
Ogłoszenie przyciągnęło uwagę — 6,1 miliona odsłon, 4 000 polubień i ponad tysiąc udostępnień — co jest rzadkością dla technicznego komunikatu w dziedzinie generowania obrazów.
Architektura i pozycjonowanie:
| Zdolność | Opis |
|---|---|
| Rozumowanie przestrzenne | Rozumie i uzupełnia sceny z zachowaniem spójności perspektywy i zasłaniania |
| Rozumowanie zdroworozsądkowe | Wnioskowanie intencji sceny w celu kierowania generowaniem |
| Transformacje kierowane | Modyfikacje sterowane przez wiarygodność fizyczną, nie tylko dopasowanie pikseli |
| Zunifikowana inteligencja | Zrozumienie, wskazówki i generacja w jednym przebiegu (unified pass) |
Luma pozycjonuje Uni-1 hasłem „Less artificial. More intelligent.” — sygnalizując zerwanie z generatorami obrazów opartymi na statystycznym dopasowaniu wzorców wizualnych. Model prezentowany jest jako podstawa przyszłych „Creative Agents” Luma, potencjalnie silnik następnej generacji Dream Machine.
Uni-1 jest dostępny od zaraz na lumalabs.ai/app.
“A new kind of model that thinks and generates pixels at the same time.”
🇵🇱 Nowy typ modelu, który myśli i generuje piksele jednocześnie. — @LumaLabsAI na X
Perplexity zasila Samsung Browsing Assist na 1 miliard urządzeń
26 marca — Samsung uruchomił Browsing Assist, konwersacyjnego asystenta IA wbudowanego natywnie w Samsung Browser na urządzeniach Galaxy z Androidem oraz na komputerach PC z Windows. Za funkcją stoją API Perplexity, wdrożone na niespotykaną skalę — ponad miliardzie urządzeń Samsung na świecie.
To uruchomienie konsoliduje istniejące już partnerstwo: Perplexity zasila dwa z trzech wbudowanych asystentów w Galaxy S26 — natywny asystent Perplexity oraz Bixby, który używa API Perplexity do wyszukiwania w sieci i rozumowania. Dzięki Browsing Assist Perplexity przechodzi od bycia asystentem konwersacyjnym do warstwy IA samej przeglądarki.
Możliwości Browsing Assist:
| Funkcjonalność | Opis |
|---|---|
| Źródłowe odpowiedzi | Wyniki w czasie rzeczywistym podczas przeglądania |
| Podsumowanie stron | W tym treści uwierzytelnione (strony za logowaniem) |
| Wyszukiwanie w historii | W języku naturalnym |
| Zarządzanie konwersacją | Otwieranie, zamykanie, nawigacja między kartami głosowo lub tekstowo |
| Działania wielokartowe | Operacje jednocześnie na kilku otwartych kartach |
| Synchronizacja telefon → PC | Wznowienie rozmowy rozpoczętej na urządzeniu mobilnym |
Infrastruktura: Browsing Assist działa na dedykowanym, jednowynajmowanym klastrze Perplexity (single-tenant), z zerowym zatrzymywaniem danych dla wszystkich wejść API. Punkt końcowy zaprojektowano na miarę szybkości i skali wymaganej przez Samsung.
Perplexity zaznacza, że możliwości wdrożone u Samsunga — wyszukiwanie, rozumowanie, orkiestracja wielokartowa — to dokładnie te elementy, na których zbudowana jest jego przeglądarka Comet. To wdrożenie stanowi dużą, praktyczną walidację stacku technicznego Perplexity.
Dostępność: Stany Zjednoczone i Korea Południowa przy starcie; inne regiony w przygotowaniu. Te same możliwości są dostępne dla deweloperów poprzez Search API, Embeddings API i Agent API Perplexity.
Claude Code v2.1.86 — Ważne poprawki i wsparcie VCS Jujutsu/Sapling
27 marca — Anthropic wydało Claude Code v2.1.86, wersję szczególnie bogatą w poprawki. Aktualizacja wprowadza około piętnastu poprawek błędów oraz kilka usprawnień wydajności.
Główne ulepszenia:
| Kategoria | Zmiana |
|---|---|
| API | Nagłówek X-Claude-Code-Session-Id do agregacji zapytań po sesji po stronie proxy |
| VCS | Wykluczenie .jj (Jujutsu) i .sl (Sapling) w Grep i autouzupełnianiu |
| Cache MCP | Czas startu skrócony z 5s do 30s (cache keychain macOS) |
| Wydajność | Poprawiony wskaźnik trafień cache na Bedrock, Vertex i Foundry |
| Tokens | Zmniejszenie narzutu przy wzmiankach @fichier (koniec JSON-escape surowej zawartości) |
| UX pamięci | Klikalne nazwy plików pamięci w notce „Saved N memories” |
| Umiejętności | Opisy ograniczone do 250 znaków; menu /skills posortowane alfabetycznie |
| Narzędzie Read | Kompaktowy format numerów linii, usuwanie duplikatów identycznych odczytów |
Znaczące poprawki błędów: --resume zawodził w sesjach utworzonych przed v2.1.85; Write/Edit/Read zawodziło na plikach poza rootem projektu przy skills warunkowych; potencjalny crash pamięci z /feedback w długich sesjach; tryb --bare tracił narzędzia MCP; skrót kopiowania URL OAuth kopiował tylko ~20 znaków zamiast całego URL; oficjalne skrypty pluginów marketplace rzucały „Permission denied” na macOS/Linux od v2.1.83.
GitHub Copilot CLI — Testy jednostkowe przez agentów w trybie autopilot
28 marca — GitHub ogłosił nową funkcję Copilot CLI: automatyczne generowanie kompletnej suite testów jednostkowych bezpośrednio z terminala, łącząc tryb planowania (plan mode) z flotą agentów w trybie autopilot.
Workflow:
- Włączyć tryb planowania z
Shift-Tabw terminalu - Uruchomić flotę agentów w trybie autopilot
- Śledzić postęp za pomocą polecenia
/tasks
Generacja jest zrównoleglana między wieloma agentami, co pozwala na pokrycie wielu modułów jednocześnie. Główny przypadek użycia to istniejące projekty bez pokrycia testami — Copilot CLI może wygenerować komplet testów bez wychodzenia ze środowiska terminalowego.
OpenAI — gpt-realtime-1.5 i gpt-realtime-mini dostępne ogólnie
27 marca — OpenAI ogłosiło dostępność ogólną (General Availability) nowych modeli realtime przez Realtime API. Dokumentacja modeli wymienia teraz:
| Model | Pozycjonowanie |
|---|---|
gpt-realtime-1.5 | Najlepszy model głosowy do interakcji audio dwukierunkowych |
gpt-realtime-mini | Ekonomiczna wersja modelu realtime |
Modele zastępują dawną nazwę gpt-4o-realtime-preview z okresu beta. Realtime API umożliwia dwukierunkowe interakcje głosowe (audio wejście i wyjście) w czasie rzeczywistym przez WebRTC, WebSocket lub SIP. Demo przedstawione przez @OpenAIDevs ilustruje concierge medycznego dla kliniki w Singapurze, zdolnego do zbierania informacji i rezerwowania wizyt w sposób naturalny.
Google DeepMind — Toolkit do pomiaru manipulacji przez IA
26 marca — Google DeepMind opublikowało wyniki dużego, empirycznego badania nad manipulacją przez IA, obejmującego 10 000 osób. Badanie identyfikuje obszary, gdzie modele wywierają znaczący wpływ (szczególnie w obszarze finansowym) oraz te, gdzie istniejące zabezpieczenia skutecznie blokują fałszywe porady (obszar medyczny).
Google DeepMind opracowało toolkit do pomiaru manipulacji przez IA — pierwszy tego rodzaju, empirycznie zwalidowany — aby zmierzyć, jak manipulacja może się zdarzać. Badanie wskazuje taktyki ryzykowne, takie jak wykorzystywanie strachu jako dźwigni.
“We’ve built an empirically validated, first-of-its-kind toolkit to measure AI manipulation in the real world — to better understand how it can occur and help protect people.”
🇵🇱 Opracowaliśmy toolkit do pomiaru manipulacji przez IA w świecie rzeczywistym, empirycznie zwalidowany i pierwszy w swoim rodzaju — aby lepiej zrozumieć, jak może się ona wydarzyć i chronić użytkowników. — @GoogleDeepMind na X
Google Translate Live — Tłumaczenie w czasie rzeczywistym na iOS
27 marca — Google rozszerzył Google Translate Live z obsługą słuchawek na iOS, w trakcie wdrażania do kolejnych krajów. Funkcja, wcześniej dostępna tylko na Androidzie, umożliwia tłumaczenie w czasie rzeczywistym w 70+ języków przez słuchawki Bluetooth lub przewodowe.
MedGemma Impact Challenge — Czterech laureatów, 850+ zespołów
26 marca — Google ogłosiło laureatów MedGemma Impact Challenge, konkursu, który zgromadził 850+ zespołów deweloperów budujących aplikacje zdrowotne z MedGemma 1.5 (otwarty model medyczny Google).
Główne laureaty:
| Miejsce | Projekt | Opis |
|---|---|---|
| 1. | EpiCast | Nadzór epidemiologiczny dla krajów ECOWAS — tłumaczy obserwacje kliniczne na ustandaryzowane sygnały IDSR WHO |
| 2. | Sunny | Wykrywanie objawów raka skóry przez mobile, raporty strukturalne z zachowaniem prywatności |
| 3. | FieldScreen AI | Offline screening gruźlicy: analiza rtg klatki piersiowej i nagrań kaszlu |
| 4. | Tracer | Zapobieganie błędom medycznym: wyciąga hipotezy z notatek lekarzy i porównuje je z wynikami badań |
Przyznano także nagrody specjalne dla projektów Edge AI i agentic workflow, w tym ClinicDX (diagnostyka zintegrowana z OpenMRS dla Afryki Subsaharyjskiej, 160+ przewodników WHO/MSF, w pełni offline).
🔗 Blog MedGemma Impact Challenge Google
Runway — Ad Concepter App i konkurs 100 000 $
27 marca — Runway wprowadził Ad Concepter App, narzędzie do tworzenia reklam z użyciem IA. Na podstawie promptu, obrazu referencyjnego i wizualu produktu aplikacja generuje koncepcje, kompozycje i etapy narracyjne (story beats) dla reklam. Narzędzie jest dostępne od zaraz w aplikacji webowej.
Runway jednocześnie uruchamia Big Ad Contest (#RunwayBigAdContest) z nagrodami do 100 000 $, aby promować adopcję narzędzia.
Pika — AI Selves w publicznej becie
26 marca — Pika otworzyła Pika AI Selves w publicznej becie. Ogłoszona w lutym funkcja pozwala użytkownikom tworzyć agentyczne rozszerzenia siebie — „AI Self” z trwałą pamięcią (w tym osobistymi danymi jak alergie pokarmowe), zdolne działać autonomicznie w rozmowach grupowych, tworzyć gry wideo lub wysyłać zdjęcia.
Dostęp jest uniwersalny przez pika.me (web) i nową aplikację iOS. Pika pozycjonuje funkcję poza samą generacją wideo, wchodząc w konkurencję o osobiste agenty IA.
Brèves
Awesome GitHub Copilot — 27 marca — Projekt społecznościowy „Awesome GitHub Copilot” migruje na nową dedykowaną stronę awesome-copilot.github.com z pełnotekstową wyszukiwarką, Learning Hub i instalacją jednym kliknięciem dla Copilot CLI i VS Code. 🔗 Tweet GitHub
NotebookLM powiadomienia push — 27 marca — NotebookLM umożliwia teraz opuszczenie strony podczas długiej generacji i otrzymanie push powiadomienia mobilnego po zakończeniu generacji. 🔗 Tweet NotebookLM
Co to oznacza
Luma Uni-1 oznacza zmianę paradygmatu w generacji wizualnej: zamiast optymalizować statystyczne dopasowanie pikseli, model integruje rozumowanie przestrzenne już podczas generacji. Jeśli to podejście sprawdzi się w praktyce, zmieni sposób, w jaki narzędzia kreatywne radzą sobie ze spójnością scen i złożonymi instrukcjami.
Wdrożenie Perplexity × Samsung może być najważniejszym praktycznym ogłoszeniem tygodnia: miliard urządzeń to ogromna dystrybucja możliwości wyszukiwania i rozumowania Perplexity. To także potwierdzenie, że wyspecjalizowane API IA (wyszukiwanie, rozumowanie, orkiestracja wielokartowa) stały się komponentami infrastruktury dla producentów sprzętu.
W obszarze narzędzi dla deweloperów Claude Code v2.1.86 i GitHub Copilot CLI idą w dwóch różnych kierunkach: Claude Code konsoliduje niezawodność (poprawki dla długich sesji, MCP, rzadziej używanych VCS), podczas gdy Copilot CLI posuwa automatyzację agentyczną naprzód (generowanie testów przez flotę agentów). Obie ewolucje odzwierciedlają rosnącą dojrzałość asystentów programistycznych wykraczających poza autouzupełnianie.
Źródła
- Luma AI Uni-1 — tweet z ogłoszeniem
- Perplexity APIs + Samsung Browsing Assist — oficjalny blog
- Perplexity × Samsung — tweet
- Claude Code Changelog
- GitHub Copilot CLI — testy jednostkowe — tweet
- OpenAI gpt-realtime-1.5 — tweet @OpenAIDevs
- Realtime API docs OpenAI
- Google DeepMind — toolkit do pomiaru manipulacji IA — tweet
- Google Translate Live iOS — tweet @GoogleAI
- MedGemma Impact Challenge — blog Google
- Runway Ad Concepter — tweet
- Pika AI Selves beta — tweet
- Awesome GitHub Copilot — tweet
Niniejszy dokument został przetłumaczony z wersji fr na język pl przy użyciu modelu gpt-5-mini. Aby uzyskać więcej informacji na temat procesu tłumaczenia, zobacz https://gitlab.com/jls42/ai-powered-markdown-translator