搜索

Luma Uni-1 同时思考并生成像素,Perplexity 在 10 亿台三星设备上,Claude Code v2.1.86

Luma Uni-1 同时思考并生成像素,Perplexity 在 10 亿台三星设备上,Claude Code v2.1.86

Luma AI 发布 Uni-1,一个将推理与像素生成合并为单次过程的模型,几天内累积 610 万次观看。同时,Perplexity 将其 API 部署到 Samsung Browsing Assist,覆盖超过十亿台设备;Claude Code v2.1.86 带来约 15 项修复;GitHub Copilot CLI 引入通过代理自动生成单元测试的功能。


Luma Uni-1 — 统一的推理与像素生成

3 月 23 日 — Luma AI 宣布了 Uni-1,他们将其描述为 “一种可以同时思考并生成像素的新型模型”。与经典的扩散模型先生成潜表示再解码不同,Uni-1 在单个过程中融合了推理与生成。

该公告吸引了大量关注:610 万次观看、4 000 个点赞以及超过一千次转发——对于一则图像生成技术公告而言,这些数字异常可观。

架构与定位:

能力说明
空间推理理解并以一致的透视与遮挡关系补全场景
常识推理推断场景意图以指导生成
受引导的变换以物理可行性为驱动进行修改,而不仅仅是像素匹配
统一智能在单次通过中完成理解、指令和生成(统一传递

Luma 将 Uni-1 的定位归结为「Less artificial. More intelligent.」——表明其与基于视觉模式统计匹配的图像生成器存在断裂。该模型被呈现为 Luma 未来 “Creative Agents” 的基础,可能成为下一代 Dream Machine 的引擎。

Uni-1 可立即在 lumalabs.ai/app 上使用。

“A new kind of model that thinks and generates pixels at the same time.”

🇨🇳 一种可以同时思考并生成像素的新型模型。@LumaLabsAI 在 X 上

🔗 Luma Uni-1 公告


Perplexity 为 Samsung Browsing Assist 提供支持,覆盖 10 亿台设备

3 月 26 日 — Samsung 推出了 Browsing Assist,这是一个原生集成在 Samsung Browser 中的对话式 AI 助手,适用于 Galaxy Android 设备和 Windows PC。该功能背后的引擎是 Perplexity 的 API,已部署在全球超过十亿台三星设备上,覆盖范围前所未有。

此次发布巩固了双方已有的合作:Perplexity 为 Galaxy S26 中的三个内置助手中的两个提供支持——原生 Perplexity 助手和使用 Perplexity API 进行网页搜索与推理的 Bixby。凭借 Browsing Assist,Perplexity 从对话助手升级为浏览器本身的 AI 层。

Browsing Assist 的功能:

功能说明
引源回答在浏览过程中提供实时引源结果
页面摘要包括经过认证的内容(需登录的页面)
历史检索使用自然语言在历史中搜索
会话式管理通过语音或文本打开、关闭、在标签页间导航
多标签操作同时在多个打开的标签页上执行操作
手机 → 电脑同步在 PC 上继续在手机上开始的对话

基础设施: Browsing Assist 运行在 Perplexity 为单一租户定制的集群上,并对所有 API 输入声明不保留数据。该端点是为 Samsung 所需的速度与规模量身定制的。

Perplexity 指出,其在 Samsung 部署的能力——搜索、推理、多标签编排——正是其浏览器 Comet 的构建之基。此部署代表了对 Perplexity 技术栈的大规模验证。

可用性: 上线时在美国和韩国可用;其他地区随后推出。开发者也可以通过 Perplexity 的 Search API、Embeddings API 和 Agent API 访问相同能力。

🔗 Perplexity 官方博客


Claude Code v2.1.86 — 重大修复与对 Jujutsu/Sapling VCS 的支持

3 月 27 日 — Anthropic 发布了 Claude Code v2.1.86,这是一次以修复为主的密集更新。该版本带来了约十五项 bug 修复和多项性能改进。

主要改进:

分类变更
APIHeader X-Claude-Code-Session-Id 用于在代理端按会话聚合请求
VCS在 Grep 和自动补全中排除了 .jj(Jujutsu)和 .sl(Sapling)
Cache MCP启动延迟从 5s 缩短到 30s(macOS keychain 缓存)
性能在 Bedrock、Vertex 和 Foundry 上提高了缓存命中率
Tokens减少对提及 @fichier 的开销(不再对原始内容进行 JSON 转义)
内存 UX“Saved N memories” 通知中的文件名可点击
Skills描述限制为 250 字符;/skills 菜单按字母顺序排序
Read tool行号格式更紧凑,对相同重读内容进行去重

显著修复: --resume 在 v2.1.85 之前创建的会话中会失败;在项目根目录外带条件 skills 的文件上 Write/Edit/Read 会失败;/feedback 在长会话中可能导致内存崩溃;--bare 模式丢失 MCP 工具;OAuth URL 复制快捷键只复制了约 20 个字符而非完整 URL;官方 marketplace 插件脚本在 macOS/Linux 上自 v2.1.83 起因 “Permission denied” 而失败。

🔗 Claude Code 更新日志


GitHub Copilot CLI — 通过代理自动生成单元测试(autopilot)

3 月 28 日 — GitHub 宣布了 Copilot CLI 的一项新功能:直接在终端中自动生成完整的单元测试套件,结合计划模式(plan mode)与一队以 autopilot 模式运行的代理。

工作流:

  1. 在终端中用 Shift-Tab 启用计划模式
  2. 启动一队以 autopilot 运行的代理
  3. 用命令 /tasks 跟踪进度

生成过程在多代理间并行,从而能够同时覆盖多个模块。主要的使用场景是对已有但缺乏测试覆盖的项目——Copilot CLI 可以在不离开终端环境的情况下生成完整的测试套件。

🔗 GitHub Copilot CLI 推文


OpenAI — gpt-realtime-1.5 与 gpt-realtime-mini 正式可用

3 月 27 日 — OpenAI 宣布其 Realtime API 下的新实时模型进入可用性阶段(General Availability)。模型文档现在列出了:

模型定位
gpt-realtime-1.5用于双向音频交互的最佳语音模型
gpt-realtime-mini实时模型的经济版

这些模型取代了测试期的旧称 gpt-4o-realtime-preview。Realtime API 支持通过 WebRTC、WebSocket 或 SIP 实现双向实时语音交互。@OpenAIDevs 展示的演示中有一个在新加坡诊所使用的礼宾医疗助理,能够自然地采集信息并预定预约。

🔗 @OpenAIDevs 推文


Google DeepMind — 关于 IA 操纵的测量工具包

3 月 26 日 — Google DeepMind 发布了一项大规模实证研究,调查 IA 操纵问题,样本量为 10 000 人。研究识别了模型可能产生显著影响的领域(尤其是金融领域),以及现有防护在阻止错误建议方面有效的领域(例如医疗领域)。

Google DeepMind 开发了一个 IA 操纵测量工具包——这是首个经实证验证的同类工具——用于量化操纵如何发生。研究指出一些高风险策略,例如将“恐惧”作为杠杆使用。

“We’ve built an empirically validated, first-of-its-kind toolkit to measure AI manipulation in the real world — to better understand how it can occur and help protect people.”

🇨🇳 我们开发了一个在现实世界中测量 AI 操纵的工具包,该工具包已通过实证验证并且为同类首创——旨在更好地理解操纵如何发生并保护用户。@GoogleDeepMind 在 X 上

🔗 Google DeepMind 推文


Google Translate Live — iOS 上的实时翻译

3 月 27 日 — Google 将 Google Translate Live 的耳机功能扩展到 iOS,正在向更多国家/地区逐步推出。此前该功能仅在 Android 可用,现在可通过蓝牙或有线耳机在 70+ 语言 中实现实时翻译。

🔗 @GoogleAI 推文


MedGemma Impact Challenge — 四位获奖者,850+ 支团队

3 月 26 日 — Google 公布了 MedGemma Impact Challenge 的获奖名单,该竞赛吸引了 850+ 支队伍 使用 MedGemma 1.5(Google 的开源医疗模型)构建健康类应用。

主要获奖项目:

排名项目说明
第 1 名EpiCast针对 ECOWAS 国家进行的流行病监测——将临床观察翻译为 WHO 标准化的 IDSR 信号
第 2 名Sunny通过移动设备检测皮肤癌迹象,生成结构化报告并保护隐私
第 3 名FieldScreen AI离线结核筛查:分析胸片影像与咳嗽音频
第 4 名Tracer防止医疗错误:从医生笔记中提取假设并与检测结果对照

还有针对 Edge AI 和 agentic workflow 的特别奖项,获奖项目包括 ClinicDX(在 OpenMRS 中集成诊断工具,覆盖撒哈拉以南非洲的 160+ 个 WHO/MSF 指南,完全离线运行)。

🔗 Google MedGemma Impact Challenge 博客


Runway — Ad Concepter App 与 10 万美元竞赛

3 月 27 日 — Runway 推出了 Ad Concepter App,这是一个用于 AI 广告创作的工具。只需一个提示词、一张参考图片和产品视觉,应用即可生成创意概念、构图和叙事步骤(story beats)。该工具可立即在网页版使用。

Runway 同步启动了 Big Ad Contest(#RunwayBigAdContest),奖金高达 100,000 美元,以促进该工具的采用。

🔗 Runway 推文


Pika — AI Selves 公测

3 月 26 日 — Pika 在公测中开放了 Pika AI Selves。该功能在二月宣布,允许用户为自己创建一个具备持久记忆(包括过敏等个人细节)的代理化“AI Self”,能在群聊中自主行动、创建游戏或发送照片等。

可通过 pika.me(网页版)和新的 iOS 应用普遍访问。Pika 将此功能定位为超越纯视频生成,进入个人 AI 代理的竞争赛道。

🔗 Pika Labs 推文


快讯

Awesome GitHub Copilot — 3 月 27 日 — 社区项目 “Awesome GitHub Copilot” 正迁移到一个新的专门站点 awesome-copilot.github.com,提供全文搜索、Learning Hub 以及一键安装 Copilot CLI 和 VS Code。🔗 GitHub 推文

NotebookLM 推送通知 — 3 月 27 日 — NotebookLM 现在允许在长时间生成过程中离开页面,并在生成完成后接收移动推送通知。🔗 NotebookLM 推文


这意味着什么

Luma Uni-1 标志着视觉生成范式的变化:模型不再仅优化像素的统计匹配,而是在生成过程中融合空间推理。如果该方法在实践中行得通,就将改变创作工具处理场景一致性和复杂指令的方式。

Perplexity × Samsung 的部署或许是本周在实际影响力上最重要的新闻:十亿台设备意味着 Perplexity 的搜索与推理能力获得了大规模分发。这也证明了专门的 AI API(搜索、推理、多标签编排)已成为硬件厂商的基础设施组件。

在开发者工具方面,Claude Code v2.1.86 与 GitHub Copilot CLI 在不同方向上推进:Claude Code 强化可靠性(修复长会话、MCP、较少见的 VCS 支持等问题),而 Copilot CLI 则推动代理化自动化(通过代理生成测试)。两者都反映出开发助手在超越自动补全方面的日益成熟。


来源

本文件已使用模型 gpt-5-mini 将法语(fr)版本翻译为中文(zh)。有关翻译过程的更多信息,请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator