Z.ai는 MIT 라이선스 하에 7,440억 파라미터를 가진 새로운 플래그십 오픈 소스 모델인 GLM-5를 출시했습니다. 이 모델은 코딩 및 에이전트 작업에서 오픈 소스 모델 중 1위를 차지했습니다. Anthropic은 Opus 4.6에 대한 ASL-4 사보타주 위험 보고서를 발표했고, OpenAI는 에이전트 프리미티브로 API를 강화했으며, Kimi는 100개의 병렬 하위 에이전트 시스템을 공개했습니다. 생태계 측면에서 Runway는 3억 1,500만 달러를 조달하고 ElevenLabs는 음성 에이전트를 위한 표현 모드를 출시했습니다.
Z.ai, GLM-5 출시: 744B 파라미터, MIT 라이선스 오픈 소스
2월 11일 — Z.ai(Zhipu AI)는 복잡한 시스템 엔지니어링 및 장기간의 에이전트 작업을 위해 설계된 새로운 프런티어 모델인 GLM-5를 출시했습니다. GLM-4.5와 비교하여 모델은 3,550억 파라미터(320억 활성)에서 7,440억 파라미터(400억 활성)로 증가했으며, 사전 학습 데이터는 23T에서 28.5T 토큰으로 증가했습니다.
GLM-5는 긴 컨텍스트 기능을 유지하면서 배포 비용을 줄이기 위해 DeepSeek Sparse Attention(DSA)을 통합하고, 사후 학습 처리량을 향상시키는 비동기 강화 학습 인프라인 “slime”을 도입합니다.
| 벤치마크 | GLM-5 | GLM-4.7 | Kimi K2.5 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|---|
| SWE-bench Verified | 77.8% | 73.8% | 76.8% | 80.9% | 76.2% |
| HLE (text) | 30.5 | 24.8 | 31.5 | 28.4 | 37.2 |
| HLE w/ Tools | 50.4 | 42.8 | 51.8 | 43.4 | 45.8 |
| Terminal-Bench 2.0 | 56.2 | 41.0 | 50.8 | 59.3 | 54.2 |
| Vending Bench 2 | $4,432 | $2,377 | $1,198 | $4,967 | $5,478 |
GLM-5는 추론, 코딩 및 에이전트 작업에서 최고의 오픈 소스 모델로 자리 매김하여 독점 프런티어 모델과의 격차를 좁혔습니다. 1년 동안 자판기 관리를 시뮬레이션하는 벤치마크인 Vending Bench 2에서 GLM-5는 4,967)에 근접했습니다.
코드 외에도 GLM-5는 제안서, 재무 보고서, 스프레드시트와 같은 .docx, .pdf 및 .xlsx 파일을 턴키 방식으로 직접 생성할 수 있습니다. Z.ai는 문서 작성을 위한 내장 기술을 갖춘 에이전트 모드를 배포하여 다중 턴 협업을 지원합니다.
모델 가중치는 MIT 라이선스 하에 Hugging Face에 게시됩니다. GLM-5는 Claude Code 및 OpenClaw와 호환되며 OpenRouter에서 사용할 수 있습니다. 배포는 코딩 플랜 맥스 가입자부터 점진적으로 시작됩니다.
🔗 GLM-5 기술 블로그 🔗 X 발표
Anthropic, 첫 번째 ASL-4 사보타주 위험 보고서 발표
2월 11일 — Anthropic은 자율 AI R&D를 위한 ASL-4(AI Safety Level 4) 안전 임계값을 예상하여 Claude Opus 4.6에 대한 사보타주 위험 보고서를 발표했습니다.
Claude Opus 4.5 출시 당시 Anthropic은 새로운 프런티어 모델마다 사보타주 위험 보고서를 작성하기로 약속했습니다. 모호한 임계값을 탐색하는 대신 회사는 더 높은 ASL-4 안전 표준을 사전에 준수하기로 결정했습니다.
| 요소 | 세부 사항 |
|---|---|
| 평가된 모델 | Claude Opus 4.6 |
| 안전 임계값 | ASL-4 (AI Safety Level 4) |
| 도메인 | 자율 AI R&D |
| 형식 | 공개 PDF 보고서 |
| 선례 | Opus 4.5 출시 중 약속 이행 |
이것은 AI 안전 투명성에서 중요한 단계입니다. Anthropic은 생산 중인 모델에 대해 이러한 사보타주 보고서를 게시한 최초의 연구소 중 하나입니다.
When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.
🇰🇷 Claude Opus 4.5를 출시했을 때, 우리는 미래 모델이 자율 AI R&D를 위한 AI Safety Level 4 임계값에 근접할 것임을 알고 있었습니다. 따라서 우리는 미래의 프런티어 모델에 대한 사보타주 위험 보고서를 작성하기로 약속했습니다. 오늘 우리는 Claude Opus 4.6에 대한 그 약속을 이행합니다. — @AnthropicAI on X
OpenAI: Responses API의 새로운 에이전트 프리미티브
2월 10일 — OpenAI는 장기간의 에이전트 작업을 위해 Responses API에 세 가지 새로운 프리미티브를 도입했습니다.
서버 측 압축
컨텍스트 제한에 도달하지 않고 몇 시간 동안 에이전트 세션을 가능하게 합니다. 압축은 서버 측에서 관리됩니다. 조기 액세스 테스터인 Triple Whale은 정밀도 손실 없이 단일 세션에서 150회의 도구 호출과 500만 토큰을 달성했다고 보고했습니다.
네트워킹이 있는 컨테이너
OpenAI가 호스팅하는 컨테이너는 이제 제어된 방식으로 인터넷에 액세스할 수 있습니다. 관리자는 대시보드에서 도메인 화이트리스트를 정의하고, 요청은 network_policy를 명시적으로 정의해야 하며, 도메인 비밀은 모델에 원시 값을 노출하지 않고 주입될 수 있습니다.
API 내의 기술
첫 번째 사전 구축 기술(스프레드시트)을 갖춘 Agent Skills 표준에 대한 기본 지원. 기술은 호스팅된 쉘 환경에 마운트할 수 있는 재사용 가능하고 버전이 지정된 번들되며, 모델은 런타임에 이를 호출할지 여부를 결정합니다.
| 프리미티브 | 설명 | 상태 |
|---|---|---|
| 서버 측 압축 | 컨텍스트 제한 없는 다중 시간 세션 | 사용 가능 |
| 네트워킹이 있는 컨테이너 | 호스팅된 컨테이너에 대한 제어된 인터넷 액세스 | 사용 가능 |
| API 내의 기술 | 재사용 가능한 번들(첫 번째 기술: 스프레드시트) | 사용 가능 |
Kimi Agent Swarm: 100개의 하위 에이전트 오케스트레이션
2월 10일 — Kimi(Moonshot AI)는 최대 100개의 전문화된 하위 에이전트로 복잡한 작업을 병렬화할 수 있는 다중 에이전트 조정 기능인 Agent Swarm을 공개했습니다.
이 시스템은 1,500회 이상의 도구 호출을 실행할 수 있으며 순차 실행보다 4.5배 높은 속도에 도달합니다. 사용 사례에는 여러 파일(Word, Excel, PDF)의 동시 생성, 병렬 콘텐츠 분석, 여러 스타일의 병렬 창작 생성이 포함됩니다. Agent Swarm은 컨텍스트를 채우는 긴 작업 중 추론 저하라는 LLM의 구조적 한계를 해결합니다.
🔗 Kimi 발표
OpenAI Harness Engineering: Codex로 수동 코드 0줄
2월 11일 — OpenAI는 수동으로 작성된 코드 0줄로 내부 소프트웨어 제품을 구축한 경험을 게시했습니다. 5개월 동안 3~7명의 엔지니어 팀이 모든 코드를 생성하기 위해 Codex만 사용했습니다.
| 지표 | 값 |
|---|---|
| 생성된 코드 라인 | ~100만 |
| 풀 리퀘스트 | ~1,500 |
| 엔지니어당 일일 PR | 평균 3.5 |
| 내부 사용자 | 수백 명 |
| 예상 시간 | 수동으로 필요한 시간의 1/10 |
| Codex 세션 | 최대 6시간 이상 |
“Harness Engineering” 접근 방식은 코드를 작성하는 대신 환경을 설계하고, 의도를 지정하고, 에이전트를 위한 피드백 루프를 구축하는 엔지니어의 역할을 재정의합니다. 저장소의 구조화된 문서는 가이드 역할(AGENTS.md가 목차 역할)을 하며, 아키텍처는 Codex가 생성한 린터 및 구조적 테스트로 엄격하며, 반복 작업은 편차를 스캔하고 리팩토링 PR을 자동으로 엽니다.
Runway, 시리즈 E에서 3억 1,500만 달러 조달
2월 10일 — Runway는 3억 1,500만 달러의 시리즈 E 자금 조달을 발표하여 가치를 53억 달러로 높였습니다. 이 라운드는 General Atlantic이 주도하고 NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein 등이 참여했습니다.
| 세부 사항 | 값 |
|---|---|
| 금액 | 315 M$ |
| 시리즈 | E |
| 평가 | 53억 달러 (vs 시리즈 D 33억 달러) |
| 주요 투자자 | General Atlantic |
| 2018년 이후 총 조달액 | 860 M$ |
자금은 물리적 세계를 시뮬레이션할 수 있는 모델인 차세대 “월드 모델”을 사전 학습하고 새로운 제품 및 산업에 배포하는 데 사용될 것입니다. 이 발표는 Runway의 최신 비디오 생성 모델인 Gen-4.5 출시 이후에 나왔습니다.
🔗 공식 발표 🔗 X의 Runway 게시물
Cowork, Windows에서 사용 가능
2월 10일 — 다중 단계 작업을 위한 데스크톱 애플리케이션인 Claude Cowork는 이제 macOS와 비교하여 완전한 기능 동등성을 갖춘 리서치 프리뷰로 Windows에서 사용할 수 있습니다.
| 기능 | 설명 |
|---|---|
| 파일 액세스 | 로컬 파일 읽기 및 쓰기 |
| 플러그인 | Cowork 플러그인 지원 |
| MCP 커넥터 | MCP 서버와의 통합 |
| 폴더별 지침 | Claude.md 스타일 — 프로젝트별 자연어 지침 |
Windows용 Cowork는 claude.com/cowork를 통해 모든 유료 Claude 요금제에서 사용할 수 있습니다.
Claude 무료 플랜의 무료 기능
2월 11일 — Anthropic은 무료 Claude 플랜에서 액세스할 수 있는 기능을 확장합니다. 파일 생성, 커넥터, 기술 및 압축을 이제 구독 없이 사용할 수 있습니다. 압축을 통해 Claude는 이전 컨텍스트를 자동으로 요약할 수 있으므로 다시 시작하지 않고도 긴 대화를 계속할 수 있습니다.
🔗 무료 플랜 발표
Slack의 Claude Code Plan Mode
2월 11일 — Slack의 Claude Code 통합에 Plan Mode가 추가되었습니다. Slack에서 Claude에게 코드 작업을 제공하면 이제 실행하기 전에 계획을 정교화하여 구현 전에 접근 방식을 검증할 수 있습니다.
| 기능 | 설명 |
|---|---|
| Plan Mode | 실행 전 계획 수립 |
| 자동 감지 | 코드와 채팅 간의 지능형 라우팅 |
| PR 생성 | Slack에서 직접 “Create PR” 버튼 |
| 전제 조건 | Pro, Max, Team 또는 Enterprise 플랜 + 연결된 GitHub |
ElevenLabs, 음성 에이전트를 위한 표현 모드 출시
2월 10일 — ElevenLabs는 AI 음성 에이전트가 실시간으로 톤, 감정 및 강조를 조정할 수 있는 진화인 ElevenAgents용 Expressive Mode를 공개했습니다.
이 모드는 실시간 대화에 최적화된 음성 합성 모델인 Eleven v3 Conversational을 기반으로 하며, 중단을 줄이는 새로운 턴 테이킹 시스템과 결합됩니다. 가격은 분당 0.08 달러로 유지됩니다. 동시에 ElevenLabs는 플랫폼을 ElevenAgents(음성 에이전트), ElevenCreative(크리에이티브 도구), ElevenAPI(개발자 플랫폼)의 세 가지 제품군으로 재구성합니다.
Kimi K2.5, Qoder에 통합
2월 9일 — Qoder(개발자용 AI 플랫폼)는 Kimi K2.5를 마켓플레이스의 플래그십 모델로 배포했으며, SWE-bench Verified 점수는 76.8%이고 유리한 요금(Efficient 등급에서 0.3x 크레딧)을 제공합니다. 권장 워크플로: 설계 및 아키텍처에 무거운 모델을 사용한 다음 구현에 K2.5를 사용합니다.
🔗 Qoder 발표
이것이 의미하는 바
오픈 소스는 프런티어 모델을 향해 계속 빠르게 발전하고 있습니다. Z.ai의 GLM-5는 코딩 및 에이전트 작업 벤치마크에서 Claude Opus 4.5 및 GPT-5.2와의 격차를 줄이면서 MIT 라이선스 하에 사용할 수 있습니다. Anthropic의 ASL-4 사보타주 보고서 발행은 다른 연구소들이 따라야 할 가능성이 높은 안전 투명성의 선례를 확립합니다.
개발자 측면에서 OpenAI의 에이전트 프리미티브(서버 측 압축, 네트워크 컨테이너, API 기술)와 “Harness Engineering” 접근 방식은 자율 에이전트가 다중 시간 세션을 관리하는 미래를 그립니다. Kimi Agent Swarm은 수백 개의 병렬 하위 에이전트 오케스트레이션으로 이 논리를 더욱 발전시킵니다.