搜索

Gemma 4 12B 开源、Ideogram 4.0 开放权重、Windows 版 Perplexity Computer、Stargate Michigan

Gemma 4 12B 开源、Ideogram 4.0 开放权重、Windows 版 Perplexity Computer、Stargate Michigan

ai-powered-markdown-translator

由 gpt-5.4-mini 从法语翻译成中文的文章。

在 GitHub 上查看项目 ↗

2026 年 6 月 3 日集中迎来一波重大的开源公告:Google 发布 Gemma 4 12B(多模态、边缘端、Apache 2.0),并推出 Co-Scientist——其面向科学研究的多智能体系统。Ideogram 释放其 4.0 版本的权重。Perplexity 将其 Personal Computer 代理带到 Windows。OpenAI 在密歇根州启动 The Barn,一个 1 GW 数据中心。GitHub Copilot 在 VS Code、JetBrains、Eclipse 和计费方面展开大规模更新。xAI 方面,Grok Imagine 1.5 Preview 现可通过 API 使用,Grok 语音也登陆 Vapi。


Gemma 4 12B —— 面向笔记本电脑的开源多模态模型

6 月 3 日 — Google 发布 Gemma 4 12B,这是一款统一的多模态模型,旨在直接在笔记本电脑和边缘设备(edge computing)上运行。其主要技术特点是采用 无独立编码器encoder-free)架构,从而简化部署并减少软件依赖。该模型以 Apache 2.0 许可 发布,可自由用于商业和研究用途。

特性数值
参数量120 亿
模态文本 + 图像(统一)
架构无独立编码器(encoder-free
许可Apache 2.0
硬件目标笔记本电脑、边缘计算
可用性现已可下载

这项公告在 X 上带来了 62 万浏览量和 5000 个点赞,使其成为本周最受关注的开源公告之一。由 Google DeepMind 转发后,Gemma 4 12B 延续了此前 Gemma 系列模型的脉络,但通过将视觉与文本融合进一个紧凑模型中,迈出了新台阶。

对于开发者来说,这一模型为可在云端之外部署的多模态 AI 应用打开了一条切实可行的道路——可以运行在配备消费级 GPU 的机器上,而无需 API 订阅。

🔗 发布推文 @googlegemma


Google DeepMind Co-Scientist —— 科学研究的多智能体伙伴

6 月 2 日 — Google DeepMind 推出 Co-Scientist,这是一个基于 Gemini 的多智能体系统,旨在充当真正的科学研究伙伴。其核心能力是:在复杂科学问题上自主生成、辩论并演化假设,且只需很少的人类介入。

Co-Scientist 不只是一个摘要或文献检索工具。它能够提出原创假设,在智能体之间内部交锋,然后加以打磨——这一套“构思-辩论-演化”的循环此前主要属于人类研究团队。该系统已与全球科学专家一起,在专门的基准测试上进行了评估。

可用性: 研究人员可通过 Hypothesis Generation(等待名单)提前访问。与全球科学专家的合作正在进行中,以评估其在特定领域上的表现。

“We believe AI can be a dedicated research partner to help discover the next breakthrough.”

🇨🇳 我们相信,AI 可以成为专门的研究伙伴,帮助发现下一个突破。@GoogleDeepMind

这项公告在 X 上带来了 14.4 万次浏览。在科学界面临加速发现周期压力的背景下,Co-Scientist 直接面向那些没有大型团队资源的独立研究人员。

🔗 deepmind.google 文章


Ideogram 4.0 —— 可下载的开源权重,支持微调

6 月 3 日 — Ideogram 发布 Ideogram 4.0,并将其描述为“世界上最好的开源图像模型”。这次公告的独特之处在于其彻底开放的理念:模型权重可供下载,开发者可以在自己的数据上进行微调(fine-tune),并将其部署到自己的基础设施上。

方面详情
可用性所有 Ideogram 套餐 + API(即日起)
Hugging Face 权重ideogram-ai/ideogram-4-nf4
Demohuggingface.co/spaces/multimodalart/ideogram4
微调允许使用专有数据
部署可使用个人基础设施
X 互动量39.68 万浏览量 — 强烈病毒传播

这项公告被 Hugging Face 转发并认可为开放模型质量进步的一个例子。“Think it. Make it. Own it.” 概括了其理念:与通常封闭的图像生成模型(Midjourney、DALL-E、近期的 Stable Diffusion)不同,Ideogram 4.0 为工作室和开发者提供了完整所有权的模型方案。

对于创意团队来说,这种价值立刻可见:可以基于自己的数据定制风格,而无需依赖外部服务,并且可在内部部署。

🔗 @ideogram_ai 公告


Perplexity Personal Computer 登陆 Windows

6 月 3 日 — Perplexity 宣布其 Personal Computer 代理登陆 Windows。此前它仅在 macOS 上可用,如今该代理准备进军 Microsoft 的操作系统。

“Personal Computer is coming to Windows. Personal Computer for Windows runs on your machine and orchestrates across the apps and files you use every day. We’ll roll out first to paying Max and Enterprise Max subscribers on the waitlist.”

🇨🇳 Personal Computer 现已登陆 Windows。Windows 版 Personal Computer 运行在你的机器上,协调你每天使用的应用和文件。我们将首先向等待名单中的付费 Max 和 Enterprise Max 订阅用户开放。@perplexity_ai

Personal Computer 在用户机器上本地运行——它协调日常应用和文件,而不会完全依赖云端。这种本地/云端混合方式,让 Perplexity 与纯云端代理区别开来:用户对敏感数据保有控制权。

部署将首先面向通过 perplexity.ai/personal-computer 加入等待名单的 MaxEnterprise Max 订阅用户。

Perplexity Computer —— 面向企业的 400+ 集成

同一天,Perplexity 进一步说明了该代理在企业场景中的能力:它连接了400 多种工具,覆盖各类企业类型。提到的集成包括:Intuit QuickBooks(会计)、Vercel(网页部署)、Shopify(电商)和 Canva(设计)。

这项补充公告将 Perplexity Computer 定位为一个通用型企业代理,能够融入现有工作流,而无需替换现有工具。

🔗 企业集成


Stargate Michigan —— 位于 Saline 的 The Barn、1 GW 数据中心

6 月 1 日 — OpenAI 与州长 Gretchen Whitmer 为 The Barn 举行奠基仪式,这是位于密歇根州 Saline 的 1 吉瓦数据中心园区。该项目属于 OpenAI 的 Stargate 计划——一项面向先进 AI 的长期基础设施建设努力,合作方包括 Oracle、Related Digital、Walbridge 和 Blackstone。

指标数值
容量1 GW
位置Saline, Michigan
建筑就业2500+(工会)
常设岗位450
郡级 + 间接岗位2500
rec center 投资$10M(Oracle + Related Digital)
预计税收$10 亿(租期内)
学生 Codex 额度最高 $45M
符合条件的学生400 000+

社区承诺十分明确:当地居民不会因为电费账单上的基础设施成本而承担负担。冷却系统采用闭环运行,用水量与一栋普通办公楼相当。

密歇根学生计划为该州 40 万名大学、社区学院和技工学校学生提供最高 $4500 万 Codex 额度(18 岁及以上,2026-2027 学年)。

🔗 openai.com 公告


GitHub Copilot 在 VS Code 中的更新 —— 5 月发布(v1.120–v1.123)

6 月 3 日 — GitHub 发布了 Copilot for VS Code 的月度回顾,涵盖 2026 年 5 月期间交付的 v1.120 至 v1.123 版本。这次基础更新整合了数月来在代理、同步和安全性方面的工作。

结构性新功能:

  • Agents 窗口(稳定预览):面向代理优先的界面,可同时处理多个项目,支持快速导航和变更审查
  • 远程代理(预览):通过 SSH 或 Dev Tunnels 在远程机器上运行——即使客户端断开,会话也能保持
  • Agent Host Protocol (AHP):用于在多个客户端之间同步会话状态的开放协议
  • 会话同步:聊天会话会自动同步到 GitHub 账户,可跨机器和工作区查看
  • /chronicle:查询过去的会话,生成每日站会报告,获取个性化生产力建议
  • 终端安全:在终端输入的密码、PIN 码和验证码绝不会被传送给语言模型
  • 命令风险评估(实验性):终端确认会包含由 AI 生成的风险等级
  • BYOK air-gapped:BYOK 模型可在与 GitHub 隔离的环境中运行
  • 可配置实用模型:可为标题、摘要、重命名建议、提交信息和意图检测选择模型
  • 内置浏览器:移动设备模拟、高级截图(视口、选区、整页)、本地 HTML 预览
  • Mermaid 和 YAML front matter 渲染:原生集成到 Markdown 预览中
  • 终端输出压缩:自动压缩冗长模式(测试、构建、lint、Docker、包管理器)

多智能体工作模式正在成形:多个代理会话可以在 Agents 窗口中并行运行,每个会话都有自己的上下文以及同步到 GitHub 账户的历史记录。

🔗 VS Code 5 月更新日志


Copilot Code Review —— MCP skills 与 Medium 分析级别(公开预览)

6 月 2 日 — GitHub 为 Copilot code review 推出两个重大功能的 公开预览,让自动审查能够适配每个团队的上下文与复杂度。

Skills 与 MCP 支持:团队现在可以配置自定义代理 skills(.github/skills/code-review/SKILL.md 文件)以及与 MCP 服务器的连接,从而为每次审查补充内部工具上下文——问题跟踪、文档、服务目录、事故处理工具。MCP 配置可从仓库设置 → Copilot → MCP servers 中完成。任何现有的 cloud agent MCP 配置都会自动应用于审查——一次投入,两种代理行为一致。

“Medium” 级别:新的中间档会将复杂的 pull request 路由到一个更强推理模型,旨在发现细微 bug、分析安全逻辑并处理跨服务变更。“Low” 仍然是简单修改的快速且经济的默认选项。Medium 消耗的 AI Credits 比 Low 更多,界面中会清晰显示成本信号。管理员可按仓库定义该级别。

Actions 工作流也可配置,允许控制 Copilot 用于审查的计算环境。适用于 Copilot Pro、Pro+、Business 和 Enterprise。

🔗 Shape Copilot Code Review


JetBrains IDE 中更强的 Copilot CLI 与代理能力

6 月 2 日 — GitHub 宣布 Copilot CLI 进入 JetBrains,并提供代理选择器,可在 Agent 模式(自主)、Ask(快速协助)、Custom agents(自定义)或 Plan(协作式规划)之间选择。三条新命令进一步增强 CLI 会话:

  • /remote:通过 github.com 或移动应用操控 CLI 会话
  • /compact:手动压缩长会话上下文
  • /chronicle:分析历史、生成站会报告并获取个性化建议

代理调试面板(公开预览)显示交互的时间线日志——对于调试自定义代理和复杂的多智能体工作流尤其有用。可以直接在模型选择器中配置推理模型的思考力度,从而根据任务调整分析深度。

Cloud agent 会话现在已集成到统一的会话视图中,可从一个地方管理所有会话(本地、CLI、云端)。一个代理自定义编辑器集中管理 skills、指令和提示词的创建与维护。

新的登录选项:Google 和 Apple 加入了可用的登录方式。已进入 GA 的功能包括:agent skills、agent hooks、提示词文件和 Anthropic Thinking。GitHub 正在分阶段部署,使 Copilot CLI agent 成为 JetBrains 中的默认体验。

🔗 Copilot JetBrains changelog


GitHub Copilot 计费与套餐 —— 基于用量的计费正式可用、Copilot Max

6 月 1 日 — 自 2026 年 6 月 1 日起,GitHub 为所有 Copilot 套餐启用 基于用量的计费(AI Credits)。每个套餐都包含每月 AI Credits 配额;超出后,用户可以通过配置额外支出预算并设置管理员定义的限制继续使用。

结构性变化:

  • Copilot code review 现在额外消耗 GitHub Actions 分钟,并叠加 AI Credits——管理员可在组织级别为所有审查配置默认 runner,无需按仓库单独配置
  • 用户预算进入 GA:组织和企业管理员可定义通用预算或按用户定制预算,并在接近上限时收到电子邮件通知
  • Copilot Max:现有 Student、Pro 和 Pro+ 订阅用户今天即可升级——更高配额以及更高支出上限,适合高强度工作流
  • 新注册已暂停,涵盖 Student、Pro、Pro+ 和 Max——预计将在未来几周重新开放

面向 Enterprise 团队的一个重点提醒:管理员需要通过模型策略启用替代模型 GPT-5.5,以取代已弃用的 GPT-4.1。启用后,GPT-5.5 会出现在 VS Code 和 github.com 上 Copilot Chat 的模型选择器中。

🔗 计费与套餐更新


Grok Imagine 1.5 Preview 已在 xAI API 中可用

6月3日 — xAI 宣布 Grok Imagine 1.5 Preview 已在 xAI API 中上线,可通过 x.ai/api/imagine 访问。这是 Grok 图像生成能力的一次重大更新——1.5 Preview 版本接替了 Grok Imagine,代表 xAI 图像模型的新一代,并可直接通过 API 向开发者开放。

方面详情
模型Grok Imagine 1.5 Preview
访问xAI API — x.ai/api/imagine
状态Preview(扫描时尚无官方产品页)
可用性开发者现可通过 API 使用
X 互动164,800 次浏览,约 1,000 个赞

公告推文来自 @grok 账号,并立即被 @xai 转发——这表明团队对此给予了优先级。Grok Imagine 先前已可在 Grok 界面中使用,而 1.5 Preview 的 API 可用性则将 xAI 图像生成能力开放给希望将其集成到应用中的开发者。

Grok Imagine 1.5 Preview 体现了 xAI 在多模态领域的推进:同一天,Grok STT 和 Grok TTS 语音 API 也通过接入 Vapi 扩大了覆盖范围。如今,xAI 生态已通过 API 覆盖文本、图像和语音,为该领域提供了 OpenAI 和 Google 之外的完整替代方案。

🔗 @grok 公告


Grok STT 和 TTS 已在 Vapi 上可用

6月3日 — xAI 语音 API —— Grok STT(语音识别)与 Grok TTS(语音合成)—— 现已集成到企业级 voice AI 平台 Vapi 中。它们于 2026 年 4 月发布,如今通过 Vapi 将覆盖范围扩展到企业语音代理开发者。

该公告带来了 433,300 次浏览、1,100 个赞和 272 次转发 —— 对一则技术集成公告而言,这是相当强的互动。Vapi 可用于创建自定义语音代理;Grok STT/TTS 的集成为其增加了 xAI 语音模型,作为 ElevenLabs、Deepgram 或 OpenAI 的竞争性选项。

🔗 Vapi 上的 Grok


NVIDIA CVPR 2026 —— 面向 AV、机器人、AI 视觉与 Alpamayo 2 Super 32B 的 Physical AI agent skills

6月3日 — 借 CVPR 2026(丹佛,6月3日至7日)之机,NVIDIA 发布了一代新的 Physical AI agent skills,覆盖自动驾驶汽车、机器人和 AI 视觉的完整研究流程。

面向 自动驾驶汽车 的关键发布:

  • AlpaGym:闭环强化学习(reinforcement learning)框架,可扩展至数千块 GPU
  • OmniDreams:由动作条件化的生成式 world model
  • Alpamayo 2 Super:面向 4 级自动驾驶的开源 320 亿参数 VLA(Vision-Language-Action)模型

面向 机器人:Isaac Sim 6.0,带原生 agent 连接器、移动技能、sim-to-real 强化学习,以及用于手术机器人领域的 Cosmos-H-Surgical-Simulator

面向 AI 视觉:Metropolis skills 可生成合成视觉异常,Defect Image Generation skill 则用于工业检测。

NVIDIA Physical AI Dataset 在 Hugging Face 上的下载量已超过 1,500 万次。这些 skills 可在 GitHub 和 NVIDIA Brev 上获得,并附带 H100 的免费试用额度。

🔗 NVIDIA CVPR 2026 Physical AI


NVIDIA Transaction Foundation Models —— Revolut、Mastercard、Adyen、Stripe

6月1日 — NVIDIA 详细说明了大型金融机构如何汇聚到 transaction foundation models —— 这些模型是在数十亿条专有金融事件上训练的基础模型。

机构方法关键结果
RevolutPRAGMA —— 240 亿事件,2600 万用户,100+ 国家单一模型优于专用模型(欺诈、信用、推荐)
Mastercard基于数十亿笔交易的大型表格模型(NVIDIA NeMo AutoModel)应用:欺诈、信用、忠诚度
Adyen部署规模达到 $1 trillion 支付,使用 RL 提升转化“0.1% 的授权率提升 = 巨大影响”
Stripe交易行为上下文每年拦截 $112 billion 欺诈,欺诈率下降 38%

NVIDIA 提供了一个名为 “Build Your Own Transaction Foundation Model” 的开发示例,可在 AWS SageMaker HyperPod 和 Nebius AI Cloud 上使用。

🔗 NVIDIA Transaction Foundation Models


Anthropic —— Partner Network、网络威胁与 Claude Code /fork

Claude Partner Network —— Services Track 与 Partner Hub

6月3日 — Anthropic 扩展其合作伙伴网络,推出两个新结构:Services TrackClaude Partner Hub

Services Track 是一个三层体系,根据各咨询公司在实际使用 Claude 中的表现进行评估:

等级活跃认证数已部署客户公开证言
Select10+2+(12 个月)1+
Preferred100+15+3+
Global Premier1,000+100+(3 个地区)15+

Claude Partner Hub 是一个门户,提供每个合作伙伴进展的每日更新,并带有一个 MCP 连接器,可直接从 Claude 查询 Hub 信息。

关键数据:用于合作伙伴培训的投资达到 $100 million,自 3 月启动以来收到 40,000+ 份申请,截至目前已有 10,000+ 名顾问获得认证。参与的咨询公司包括:Accenture(3 万名专业人士接受培训)、Deloitte(47 万人)、KPMG(27.6 万+)、Cognizant、PwC。

🔗 Services Track 与 Partner Hub


MITRE ATT&CK 报告 —— 一年由 AI 驱动的网络威胁

6月3日 — Anthropic Frontier Red Team 团队发布了一份分析报告,涵盖 832 个被封禁账号,时间跨度为 2025 年 3 月至 2026 年 3 月,并映射到 MITRE ATT&CK 框架。

三个主要结论:

指标数值
分析账号数832(2025年3月 – 2026年3月)
AI 用于编写恶意软件560/832(67.3%)
期初中等及以上风险行为者33%
期末中等及以上风险行为者56%(+1.7×)
被拆解的间谍行动2025年11月 — 最高分 100/100

agentic 编排——即将攻击步骤按序自主串联的模型——尚未被 MITRE ATT&CK 框架覆盖。Anthropic 已开始与 MITRE 讨论如何演进该框架,并将这些数据作为 Verizon DBIR 2026 报告系列的一部分发布。

🔗 Anthropic 报告 —— AI 网络威胁


Claude Code /fork 重构 —— 带精确上下文的后台 agent

6月3日 — Anthropic 改变了 /fork 在 Claude Code 中的行为。新的 /fork 会启动一个后台 agent,它会精确继承当前会话的上下文(system prompt、工具、历史记录、模型、prompt cache),并将结果返回到原始会话中。

命令行为
/fork(新)启动一个具有精确上下文 + prompt cache 的后台 agent → 结果返回至会话中
/branch(ex-/fork)将 transcript 复制到一个新的、手动驱动的会话

这一变化将 /fork 纳入 Claude Code 向多 agent 工作模式演进的进程中。

🔗 @ClaudeDevs 推文


OpenAI Blueprint —— frontier AI 的民主治理

6月3日 — OpenAI 发布了一份公共政策文件(“blueprint”),描述美国如何构建一个可持续的联邦框架来治理 frontier AI 系统。

三部分策略:

  1. 国家框架—— 以州级法律逐步形成的共识为基础(California SB 53、New York RAISE Act、Illinois SB 315)
  2. 强化 CAISI—— 使人工智能安全与创新中心成为 frontier AI 安全的联邦主导机构
  3. 国家韧性计划—— 动员政府应对 frontier AI 带来的国家安全与公共安全挑战

该 blueprint 紧随白宫前一天发布的行政命令 “Promoting Advanced Artificial Intelligence Innovation and Security” 之后。

🔗 OpenAI Blueprint


Gemini CLI v0.45.0 与 Wan 创意工具

Gemini CLI v0.45.0

6月3日 — Google 发布 Gemini CLI 的稳定版 v0.45.0,并对 ContextManager(对话上下文管理的核心组件)进行架构重构,以提升稳健性和性能。

功能详情
Context Simplification重大重构 ContextManager
A2A Usage Metadata在 Agent-to-Agent 协议中暴露元数据
Termux 修复解决无限重试循环(Android 环境)
PTY resize修正尺寸调整错误
Topic updates强制顺序执行以避免冲突

🔗 Gemini CLI 更新日志


Wan —— 新增 Extract Line Art 与 Render skills

6月3日 — Wan(阿里通义实验室的视频与图像模型)推出两个新的创意工具:Extract Line Art(将复杂视觉转换为干净、准确的线稿)和 Render(将线稿即时转换为完成度更高的视觉作品)。这两个 skill 都可在 create.wan.video/lab/skill 上使用。该公告在数小时内获得了近 600,000 次浏览

🔗 Wan 公告


GPT-4.1 从 Copilot 中移除 —— 由 GPT-5.5 取代

6月2日 — GitHub 正式宣布在所有 GitHub Copilot 体验中弃用 GPT-4.1(chat、inline edits、ask 和 agent 模式、代码补全),自 2026年6月1日 起生效。推荐替代方案是 GPT-5.5。Enterprise 管理员需要在其 Copilot 设置中的模型策略里启用 GPT-5.5 访问权限。移除 GPT-4.1 无需手动操作。

🔗 GPT-4.1 已弃用


面向 Azure Repos 的 Copilot Code Review(技术预览)

6月2日 — GitHub 推出面向 Azure Repos 的 Copilot code review,处于技术预览阶段。用户可直接在 Azure DevOps pull request 中请求 Copilot 进行审查——内联评论、改进建议、问题检测。Azure DevOps 客户不需要 GitHub Copilot 许可证。该功能按 GitHub AI credits 计费,不受现有 Copilot 套餐影响。

🔗 Copilot Code Review — Azure Repos


Cohere Co/plot —— 面向 AI 研究的开源可视化工具

6月3日 — Cohere Labs 发布 co/plot,一款面向 AI 研究人员的开源数据可视化工具。它源自 Tiny Aya(70+ 语言的多语言模型)开发过程中的实际需求,co/plot 解决了 Matplotlib 的局限(每次修改都要完整重跑)以及 Figma 的问题(与真实数据脱节)。

该工具提供基于真实数据、带有预设且可定制样式的快速原型设计。秉持开放科学精神发布,可通过 coplot.vercel.app 访问。

🔗 Cohere co/plot


简讯

  • Claude Code v2.1.161 — 新版本:OTEL_RESOURCE_ATTRIBUTES 作为指标标签,部分失败时独立的 parallel tool calls,改进 Linux 剪贴板(wl-copy/xclip/xsel),以及 git worktrees 中 /autofix-pr 的修复。🔗 发布信息

  • Anthropic 支持 AI 行政命令 — Anthropic 对 “Promoting Advanced Artificial Intelligence Innovation and Security” 行政命令表示欢迎,并宣布将与白宫合作落实该命令。🔗 AnthropicAI 推文

  • Eclipse 中的 GitHub Copilot — Business 和 Enterprise 现已支持 BYOK,聊天界面焕新,支持 skills 和 prompt 文件,增加思考块(Thinking blocks),并更好支持 ABAP。🔗 Eclipse 更新日志

  • NVIDIA Research CVPR — NVIDIA Research 在 CVPR 2026 上展示了先进抓取、智能自动驾驶以及大规模 agent 训练相关工作。🔗 NVIDIA 博客

  • Fun-Realtime-TTS 登顶 #1 Speech Arena — 阿里巴巴的 Fun-Realtime-TTS(TONGYI_SpeechAI 团队)登上 Artificial Analysis 的 Speech Arena Leaderboard 首位(Elo 1,219),领先于 Google Gemini 3.1 Flash TTS 和 Inworld Realtime TTS-2。🔗 @Ali_TongyiLab 推文

  • Go by Gopuff —— AI 购物助手 — “Go by Gopuff” 上线,这是一个与 xAI 共同开发的个人购物助手,由 Grok 模型(文本、音频、图像)驱动,可在几分钟内完成极速配送。🔗 xAI 公告

  • OpenAI 预告 “It’s time to fly.” — OpenAI 发布了一条置顶推文 “It’s time to fly.” 并附带嵌入视频(68k+ 次浏览,被 @OpenAIDevs 转发)。扫描时尚无对应产品页——这是一则尚未正式发布的即将到来公告。🔗 @OpenAI 推文


这意味着什么

开源/开放权重浪潮正在增强。 Gemma 4 12B(Apache 2.0、边缘端、多模态)与 Ideogram 4.0(可下载权重、可自由微调)体现了一种结构性趋势:大型团队正以宽松许可发布具有竞争力的模型,缩小封闭方案与开源替代品之间的差距。对开发者而言,6月3日是一个少见的时刻:一个顶级视觉模型和一个顶级图像模型同时变得可无商业约束地使用。

本地/桌面 agent 正成为新的竞争前线。 Perplexity Personal Computer 在 Windows 上直接运行,回应了一个明确需求:企业想要 agent 的自主性,同时又不想把敏感数据暴露给云端。DeepMind 的 Co-Scientist 面向独立研究者,提供科学推理伙伴。重构后的 Claude Code /fork 后台多 agent 则补全了这一图景:三个不同生态(Perplexity、Google、Anthropic)正朝同一范式汇聚——一个并行工作、上下文丰富、无需持续人工干预的 agent。

GitHub Copilot 正在巩固其在开发者工具上的领先地位。 6 月的这一波更新——按用量计费 GA、Copilot Max、Code Review Medium、JetBrains CLI、session sync、BYOK air-gapped——不是一组孤立功能,而是一个一致的平台,推动向同一模型迈进:一个可从所有 IDE、所有机器访问的单一 agent,并可根据团队需求提供适当的控制级别(MCP、skills、思考深度)。用 GPT-5.5 取代 GPT-4.1 也属于这一持续升级的逻辑。

Physical AI 和 AI 基础设施正扎根于现实经济。 Stargate Michigan(1 GW、2,500 个工会岗位、预计 $1 billion 税收)与 NVIDIA CVPR 2026(面向 4 级自动驾驶的 Alpamayo 2 Super 32B、下载量达 1,500 万的 Physical AI 数据集)表明,AI 正从纯软件领域走向高物理强度场景——数据中心、自动驾驶汽车、机器人。金融机构(Revolut、Mastercard、Adyen、Stripe)也遵循同样逻辑:基于自有数据训练的基础模型,而不是通用 API。

来源