Luma AI 发布 Uni-1,一个将推理与像素生成合并为单次过程的模型,几天内累积 610 万次观看。同时,Perplexity 将其 API 部署到 Samsung Browsing Assist,覆盖超过十亿台设备;Claude Code v2.1.86 带来约 15 项修复;GitHub Copilot CLI 引入通过代理自动生成单元测试的功能。
Luma Uni-1 — 统一的推理与像素生成
3 月 23 日 — Luma AI 宣布了 Uni-1,他们将其描述为 “一种可以同时思考并生成像素的新型模型”。与经典的扩散模型先生成潜表示再解码不同,Uni-1 在单个过程中融合了推理与生成。
该公告吸引了大量关注:610 万次观看、4 000 个点赞以及超过一千次转发——对于一则图像生成技术公告而言,这些数字异常可观。
架构与定位:
| 能力 | 说明 |
|---|---|
| 空间推理 | 理解并以一致的透视与遮挡关系补全场景 |
| 常识推理 | 推断场景意图以指导生成 |
| 受引导的变换 | 以物理可行性为驱动进行修改,而不仅仅是像素匹配 |
| 统一智能 | 在单次通过中完成理解、指令和生成(统一传递) |
Luma 将 Uni-1 的定位归结为「Less artificial. More intelligent.」——表明其与基于视觉模式统计匹配的图像生成器存在断裂。该模型被呈现为 Luma 未来 “Creative Agents” 的基础,可能成为下一代 Dream Machine 的引擎。
Uni-1 可立即在 lumalabs.ai/app 上使用。
“A new kind of model that thinks and generates pixels at the same time.”
🇨🇳 一种可以同时思考并生成像素的新型模型。 — @LumaLabsAI 在 X 上
Perplexity 为 Samsung Browsing Assist 提供支持,覆盖 10 亿台设备
3 月 26 日 — Samsung 推出了 Browsing Assist,这是一个原生集成在 Samsung Browser 中的对话式 AI 助手,适用于 Galaxy Android 设备和 Windows PC。该功能背后的引擎是 Perplexity 的 API,已部署在全球超过十亿台三星设备上,覆盖范围前所未有。
此次发布巩固了双方已有的合作:Perplexity 为 Galaxy S26 中的三个内置助手中的两个提供支持——原生 Perplexity 助手和使用 Perplexity API 进行网页搜索与推理的 Bixby。凭借 Browsing Assist,Perplexity 从对话助手升级为浏览器本身的 AI 层。
Browsing Assist 的功能:
| 功能 | 说明 |
|---|---|
| 引源回答 | 在浏览过程中提供实时引源结果 |
| 页面摘要 | 包括经过认证的内容(需登录的页面) |
| 历史检索 | 使用自然语言在历史中搜索 |
| 会话式管理 | 通过语音或文本打开、关闭、在标签页间导航 |
| 多标签操作 | 同时在多个打开的标签页上执行操作 |
| 手机 → 电脑同步 | 在 PC 上继续在手机上开始的对话 |
基础设施: Browsing Assist 运行在 Perplexity 为单一租户定制的集群上,并对所有 API 输入声明不保留数据。该端点是为 Samsung 所需的速度与规模量身定制的。
Perplexity 指出,其在 Samsung 部署的能力——搜索、推理、多标签编排——正是其浏览器 Comet 的构建之基。此部署代表了对 Perplexity 技术栈的大规模验证。
可用性: 上线时在美国和韩国可用;其他地区随后推出。开发者也可以通过 Perplexity 的 Search API、Embeddings API 和 Agent API 访问相同能力。
Claude Code v2.1.86 — 重大修复与对 Jujutsu/Sapling VCS 的支持
3 月 27 日 — Anthropic 发布了 Claude Code v2.1.86,这是一次以修复为主的密集更新。该版本带来了约十五项 bug 修复和多项性能改进。
主要改进:
| 分类 | 变更 |
|---|---|
| API | Header X-Claude-Code-Session-Id 用于在代理端按会话聚合请求 |
| VCS | 在 Grep 和自动补全中排除了 .jj(Jujutsu)和 .sl(Sapling) |
| Cache MCP | 启动延迟从 5s 缩短到 30s(macOS keychain 缓存) |
| 性能 | 在 Bedrock、Vertex 和 Foundry 上提高了缓存命中率 |
| Tokens | 减少对提及 @fichier 的开销(不再对原始内容进行 JSON 转义) |
| 内存 UX | “Saved N memories” 通知中的文件名可点击 |
| Skills | 描述限制为 250 字符;/skills 菜单按字母顺序排序 |
| Read tool | 行号格式更紧凑,对相同重读内容进行去重 |
显著修复: --resume 在 v2.1.85 之前创建的会话中会失败;在项目根目录外带条件 skills 的文件上 Write/Edit/Read 会失败;/feedback 在长会话中可能导致内存崩溃;--bare 模式丢失 MCP 工具;OAuth URL 复制快捷键只复制了约 20 个字符而非完整 URL;官方 marketplace 插件脚本在 macOS/Linux 上自 v2.1.83 起因 “Permission denied” 而失败。
GitHub Copilot CLI — 通过代理自动生成单元测试(autopilot)
3 月 28 日 — GitHub 宣布了 Copilot CLI 的一项新功能:直接在终端中自动生成完整的单元测试套件,结合计划模式(plan mode)与一队以 autopilot 模式运行的代理。
工作流:
- 在终端中用
Shift-Tab启用计划模式 - 启动一队以 autopilot 运行的代理
- 用命令
/tasks跟踪进度
生成过程在多代理间并行,从而能够同时覆盖多个模块。主要的使用场景是对已有但缺乏测试覆盖的项目——Copilot CLI 可以在不离开终端环境的情况下生成完整的测试套件。
OpenAI — gpt-realtime-1.5 与 gpt-realtime-mini 正式可用
3 月 27 日 — OpenAI 宣布其 Realtime API 下的新实时模型进入可用性阶段(General Availability)。模型文档现在列出了:
| 模型 | 定位 |
|---|---|
gpt-realtime-1.5 | 用于双向音频交互的最佳语音模型 |
gpt-realtime-mini | 实时模型的经济版 |
这些模型取代了测试期的旧称 gpt-4o-realtime-preview。Realtime API 支持通过 WebRTC、WebSocket 或 SIP 实现双向实时语音交互。@OpenAIDevs 展示的演示中有一个在新加坡诊所使用的礼宾医疗助理,能够自然地采集信息并预定预约。
Google DeepMind — 关于 IA 操纵的测量工具包
3 月 26 日 — Google DeepMind 发布了一项大规模实证研究,调查 IA 操纵问题,样本量为 10 000 人。研究识别了模型可能产生显著影响的领域(尤其是金融领域),以及现有防护在阻止错误建议方面有效的领域(例如医疗领域)。
Google DeepMind 开发了一个 IA 操纵测量工具包——这是首个经实证验证的同类工具——用于量化操纵如何发生。研究指出一些高风险策略,例如将“恐惧”作为杠杆使用。
“We’ve built an empirically validated, first-of-its-kind toolkit to measure AI manipulation in the real world — to better understand how it can occur and help protect people.”
🇨🇳 我们开发了一个在现实世界中测量 AI 操纵的工具包,该工具包已通过实证验证并且为同类首创——旨在更好地理解操纵如何发生并保护用户。 — @GoogleDeepMind 在 X 上
Google Translate Live — iOS 上的实时翻译
3 月 27 日 — Google 将 Google Translate Live 的耳机功能扩展到 iOS,正在向更多国家/地区逐步推出。此前该功能仅在 Android 可用,现在可通过蓝牙或有线耳机在 70+ 语言 中实现实时翻译。
MedGemma Impact Challenge — 四位获奖者,850+ 支团队
3 月 26 日 — Google 公布了 MedGemma Impact Challenge 的获奖名单,该竞赛吸引了 850+ 支队伍 使用 MedGemma 1.5(Google 的开源医疗模型)构建健康类应用。
主要获奖项目:
| 排名 | 项目 | 说明 |
|---|---|---|
| 第 1 名 | EpiCast | 针对 ECOWAS 国家进行的流行病监测——将临床观察翻译为 WHO 标准化的 IDSR 信号 |
| 第 2 名 | Sunny | 通过移动设备检测皮肤癌迹象,生成结构化报告并保护隐私 |
| 第 3 名 | FieldScreen AI | 离线结核筛查:分析胸片影像与咳嗽音频 |
| 第 4 名 | Tracer | 防止医疗错误:从医生笔记中提取假设并与检测结果对照 |
还有针对 Edge AI 和 agentic workflow 的特别奖项,获奖项目包括 ClinicDX(在 OpenMRS 中集成诊断工具,覆盖撒哈拉以南非洲的 160+ 个 WHO/MSF 指南,完全离线运行)。
🔗 Google MedGemma Impact Challenge 博客
Runway — Ad Concepter App 与 10 万美元竞赛
3 月 27 日 — Runway 推出了 Ad Concepter App,这是一个用于 AI 广告创作的工具。只需一个提示词、一张参考图片和产品视觉,应用即可生成创意概念、构图和叙事步骤(story beats)。该工具可立即在网页版使用。
Runway 同步启动了 Big Ad Contest(#RunwayBigAdContest),奖金高达 100,000 美元,以促进该工具的采用。
Pika — AI Selves 公测
3 月 26 日 — Pika 在公测中开放了 Pika AI Selves。该功能在二月宣布,允许用户为自己创建一个具备持久记忆(包括过敏等个人细节)的代理化“AI Self”,能在群聊中自主行动、创建游戏或发送照片等。
可通过 pika.me(网页版)和新的 iOS 应用普遍访问。Pika 将此功能定位为超越纯视频生成,进入个人 AI 代理的竞争赛道。
快讯
Awesome GitHub Copilot — 3 月 27 日 — 社区项目 “Awesome GitHub Copilot” 正迁移到一个新的专门站点 awesome-copilot.github.com,提供全文搜索、Learning Hub 以及一键安装 Copilot CLI 和 VS Code。🔗 GitHub 推文
NotebookLM 推送通知 — 3 月 27 日 — NotebookLM 现在允许在长时间生成过程中离开页面,并在生成完成后接收移动推送通知。🔗 NotebookLM 推文
这意味着什么
Luma Uni-1 标志着视觉生成范式的变化:模型不再仅优化像素的统计匹配,而是在生成过程中融合空间推理。如果该方法在实践中行得通,就将改变创作工具处理场景一致性和复杂指令的方式。
Perplexity × Samsung 的部署或许是本周在实际影响力上最重要的新闻:十亿台设备意味着 Perplexity 的搜索与推理能力获得了大规模分发。这也证明了专门的 AI API(搜索、推理、多标签编排)已成为硬件厂商的基础设施组件。
在开发者工具方面,Claude Code v2.1.86 与 GitHub Copilot CLI 在不同方向上推进:Claude Code 强化可靠性(修复长会话、MCP、较少见的 VCS 支持等问题),而 Copilot CLI 则推动代理化自动化(通过代理生成测试)。两者都反映出开发助手在超越自动补全方面的日益成熟。
来源
- Luma AI Uni-1 — 推文公告
- Perplexity APIs + Samsung Browsing Assist — 官方博客
- Perplexity × Samsung — 推文
- Claude Code 更新日志
- GitHub Copilot CLI — 单元测试 — 推文
- OpenAI gpt-realtime-1.5 — @OpenAIDevs 推文
- Realtime API 文档 OpenAI
- Google DeepMind — IA 操纵工具包 — 推文
- Google Translate Live iOS — @GoogleAI 推文
- MedGemma Impact Challenge — Google 博客
- Runway Ad Concepter — 推文
- Pika AI Selves 公测 — 推文
- Awesome GitHub Copilot — 推文
本文件已使用模型 gpt-5-mini 将法语(fr)版本翻译为中文(zh)。有关翻译过程的更多信息,请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator