Anthropicは、Opusに匹敵する性能をSonnetの価格で提供するモデル、Claude Sonnet 4.6を発表し、大きなインパクトを与えました。同時に、Qwenは3970億パラメータを持つ初のオープンウェイトモデルQwen3.5を公開し、Googleは音楽生成モデルLyria 3をGeminiに直接統合しました。
Claude Sonnet 4.6:Sonnet価格でOpusのパフォーマンス
2月17日 — Anthropicは、これまでで最も高性能なSonnetと評されるClaude Sonnet 4.6をローンチしました。このモデルは、コーディング、コンピュータ操作(computer use)、長文脈推論、エージェント計画、知的作業、デザインにおいて全面的なアップグレードが行われています。ベータ版では100万tokenのコンテキストウィンドウを搭載しています。
その位置付けは明確です。これまでOpusモデルを必要としていたパフォーマンスが、Sonnetの料金、つまり100万tokenあたり15(Sonnet 4.5から据え置き)で利用可能になりました。Sonnet 4.6は、claude.aiおよびClaude CoworkのFreeおよびProプランにおけるデフォルトモデルとなります。
ベンチマークとユーザーの反応
Claude Codeにおいて、テスターの約**70%がSonnet 4.5よりもSonnet 4.6を選好し、コード変更前のコンテキスト理解の向上や、ロジックを複製する代わりに共有ロジックとして統合する点が評価されました。さらに注目すべきは、ユーザーの59%**がOpus 4.5(2025年11月のフロンティアモデル)よりもSonnet 4.6を選好したことです。過剰なエンジニアリングの少なさ、「怠惰」さの減少、および指示への従順さの向上が挙げられています。
| Benchmark | Score |
|---|---|
| SWE-bench Verified | 80.2%(プロンプト修正あり) |
| OSWorld (computer use) | 16ヶ月で大幅な進歩 |
| OfficeQA | Opus 4.6と同等 |
| Vending-Bench Arena | 投資/ピボットの新たな戦略 |
Computer useも大幅に進化しています。Sonnet 4.6はSonnet 4.5と比較してプロンプトインジェクションへの耐性も向上しており、Opus 4.6に匹敵するレベルに達しています。
関連する製品アップデート
この発表に伴い、Claude APIのいくつかの機能が一般提供(GA)されました:コード実行、メモリ、プログラムによるツール呼び出し、ツール検索、ツールの使用例です。Web検索とfetchツールには動的フィルタリングが統合され、Claudeが自動的にコードを書いて実行し、検索結果をフィルタリングして、関連するコンテンツのみをコンテキストに保持するようになりました。
Claude in Excelユーザー向けには、アドインがMCPコネクタ(S&P Global、LSEG、Daloopa、PitchBook、Moody’s、FactSet)をサポートするようになり、Pro、Max、Team、Enterpriseプランで利用可能です。
🔗 公式発表
Anthropic、実環境におけるAIエージェントの自律性を測定
2月18日 — Anthropicは、Claude Codeおよび公開APIを通じた数百万件の人間とエージェントのインタラクションを分析した調査結果を発表しました。目的は、人間が実際にエージェントの自律性をどのように扱っているかを理解することです。
主な結果
| 指標 | 値 |
|---|---|
| 最大自律時間(99.9パーセンタイル) | ~45分(3ヶ月で倍増) |
| 自動承認(熟練ユーザー) | 40%以上(新規ユーザーは20%) |
| APIトラフィックにおけるソフトウェアエンジニアリングの割合 | ~50% |
| ガードレール付きアクション | 80% |
| 人間参加型(Human-in-the-loop)アクション | 73% |
| 不可逆的アクション | 0.8% |
直感に反する結果として、熟練ユーザーは自動承認率と中断率の両方を高めていることがわかりました。彼らはアクションごとの監視から、的を絞った介入を行う能動的なモニタリングへと移行しています。さらに、Claudeは人間が中断するよりも頻繁に自ら停止して説明を求めており、特に複雑なタスクにおいて顕著です。
調査は、能力と使用状況の間に大きなギャップが存在すると結論付けています。モデルが処理できる自律性は、実際に与えられている自律性を大きく上回っており、研究者はこれを「未展開の自律性の余剰(surplus of undeployed autonomy)」と呼んでいます。
Anthropic:ルワンダおよびInfosysとのパートナーシップ
2月17日 — Sonnet 4.6のローンチと並行して、Anthropicは**ルワンダ政府との覚書(MOU)**に署名し、医療、教育、行政分野へのClaudeの展開を進めることを発表しました。このパートナーシップはICT・イノベーション省主導で行われ、公務員のトレーニングやアフリカ8カ国でのAI学習コンパニオンの展開が含まれます。
Anthropicはまた、通信およびその他の規制産業向けのAIエージェントを構築するためにInfosysとの協力を発表しました。
Qwen3.5-397B-A17B:3.5シリーズ初のオープンウェイト
2月16日 — Alibaba Qwenは、Qwen3.5シリーズ初のオープンウェイトモデルであるQwen3.5-397B-A17Bを公開しました。これは、線形アテンションと疎なMixture-of-Experts(MoE)を組み合わせたハイブリッドアーキテクチャによる重要な進歩です。
| 特徴 | 詳細 |
|---|---|
| 総パラメータ数 | 397B(ハイブリッドMoEアーキテクチャ) |
| アーキテクチャ | ハイブリッド線形アテンション + スパースMoE |
| スループット | Qwen3-Maxの8.6倍〜19.0倍 |
| 言語 | 201の言語と方言 |
| ライセンス | Apache 2.0 |
| トレーニング | 大規模強化学習 |
| 専門分野 | ネイティブマルチモーダル、実エージェント |
モデルはHugging Face、ModelScope、Alibaba Cloud Model Studio、およびQwen Codeを通じて即時利用可能です。201言語のサポートとApache 2.0ライセンスにより、言語カバレッジと推論スループットの面で現在最も野心的なオープンウェイトモデルの一つとなっています。
Google Lyria 3:Geminiに音楽生成が到来
2月18日 — GoogleとDeepMindは、Geminiアプリに直接統合されたAI音楽生成モデルLyria 3を発表しました。ユーザーはテキストプロンプト、写真、または動画から30秒の楽曲を作成でき、カスタム歌詞の生成も可能です。
| 機能 | 詳細 |
|---|---|
| 入力 | テキスト、画像、動画 |
| 出力 | 30秒のオーディオトラック |
| カスタマイズ | 多様な音楽スタイル、生成された歌詞 |
| 利用可能性 | Geminiでベータ版(18歳以上) |
Lyria 3は楽器やジャンルの組み合わせにおいて顕著な柔軟性を示しており、ジングルからローファイ(Lo-Fi)な楽曲まで幅広い制作が可能です。世界的な展開は段階的に行われます。
OpenAI EVMbench:スマートコントラクト向けセキュリティbenchmark
2月18日 — OpenAIとParadigmは、Ethereumスマートコントラクトの脆弱性を検出し、修正し、悪用するAIエージェントの能力を評価するbenchmark、EVMbenchを立ち上げました。このbenchmarkは、40の監査(主にCode4renaのコンペティション)からキュレーションされた120の脆弱性に基づいています。
| モード | 説明 | GPT-5.3-Codex | GPT-5 (6ヶ月前) |
|---|---|---|---|
| Exploit | ドレイン攻撃の実行 | 72.2% | 31.9% |
| Detect | 脆弱性の監査と検出 | < 完全なカバレッジ | - |
| Patch | 機能性を維持したまま修正 | < 完全なカバレッジ | - |
興味深いことに、AIエージェントは検出や修正(最初の脆弱性発見後に諦めることが多い)よりも、悪用(明示的な目的)において優れた成果を上げています。OpenAIは、防御的サイバーセキュリティのためにAPIクレジットで1000万ドルを提供するというコミットメントを再確認しました。
GLM-5 Technical Report:Z.aiがモデルを文書化
2月18日 — Z.aiは、2月11日にローンチされたモデル(744Bパラメータ、40Bアクティブ、MIT License)のアーキテクチャ革新を詳述したGLM-5の完全な技術レポートを公開しました。
文書化された3つの主要なイノベーションは、トレーニングと推論のコストを削減するDynamic Sparse Attention (DSA)、生成とトレーニングを分離する非同期RLインフラストラクチャ、そして複雑で長期的な相互作用を可能にするエージェント向けRLアルゴリズムです。レポートはarXivで入手可能です。
🔗 ツイート @Zai_org · 🔗 arXiv
Cohere Labs Tiny Aya:超小型多言語AI
2月17日 — Cohere Labsは、わずか33.5億パラメータで70以上の言語をサポートする小型言語モデルファミリー、Tiny Ayaを発表しました。目的は、電話やオフライン環境を含め、あらゆる場所で多言語AIを利用可能にすることです。
Tiny Ayaは、非英語圏で活動する研究者、デジタルサービスが行き届いていないコミュニティ向けに開発する開発者、およびクラウドへの依存なしに信頼性の高い翻訳を必要とする組み込みアプリケーションをターゲットにしています。このモデルにはオフライン翻訳機能が含まれており、プライバシーを向上させ、レイテンシを削減します。
Runway Gen-4.5 API + Claude Code Skillで利用可能
2月17日 — RunwayはGen-4.5へのAPIアクセスを開放し、開発者が画像、動画、オーディオの生成を直接プロジェクトに統合できるようにしました。この発表に伴い、GitHubで利用可能な専用のClaude Code Skillも公開され、開発環境を離れることなくRunwayのマルチメディアコンテンツを生成できるようになりました。
🔗 ツイート @runwayml · 🔗 GitHub Skills
Manus Agents:長期記憶を持つパーソナルエージェント
2月16日 — Manusは、各ユーザーがチャット会話内で直接パーソナルエージェントを利用できる機能、Manus Agentsをローンチしました。このエージェントは、長期記憶(スタイル、口調、好みの保持)、完全な制作能力(動画、スライド、サイト、画像)、およびGmail、Calendar、Notionとの直接統合を組み合わせています。
ElevenAgents for Support
2月17日 — ElevenLabsは、カスタマーサポート向けのAI会話エージェントElevenAgents for Supportをローンチしました。70以上の言語で音声およびデジタルチャネルで動作するこれらのエージェントは、ElevenLabsのエージェンティックプラットフォームと400万以上の本番展開の実績に基づいています。
NotebookLM x Zillow:不動産ノートブック
2月18日 — NotebookLMはZillowと提携し、住宅購入者向けの無料のFeatured Notebookをローンチしました。これは、財務準備、市場評価、購入手続きに関する専門家のアドバイスを一元化したものです。
考察
今週は2つの大きなトレンドを示しています。第一に、フロンティアパフォーマンスの民主化です。Sonnet 4.6はOpusの能力を5分の1の価格で提供し、Qwen3.5は397BパラメータモデルをApache 2.0で利用可能にしました。第二に、AIエージェントの拡大です。Anthropicの調査によると、最も長い自律セッションは3ヶ月で倍増しており、Manus、ElevenLabs、Runwayなどの企業は、専門化されたエージェント(パーソナルチャット、カスタマーサポート、マルチメディア制作)を構築しています。
Lyria 3によるGeminiへの音楽生成の導入や、ブロックチェーンセキュリティのためのEVMbenchは、生成AIとセキュリティAIがそれぞれ独自の分野として構造化され続けていることも示しています。
ソース
- Introducing Claude Sonnet 4.6 — Anthropic
- Measuring AI agent autonomy in practice — Anthropic
- Anthropic + Rwanda MOU
- Qwen3.5-397B-A17B — @Alibaba_Qwen
- Lyria 3 — @GoogleAI
- EVMbench — OpenAI
- GLM-5 Technical Report — @Zai_org
- Tiny Aya — @cohere
- Runway Gen-4.5 API — @runwayml
- Manus Agents — @ManusAI
- ElevenAgents for Support — ElevenLabs
- NotebookLM x Zillow — @NotebookLM
- Recherche web améliorée avec filtrage dynamique — Claude Blog
- Claude API improvements — @claudeai