AI를 재정의하는 발표
2025년 11월 24일 — Anthropic은 역대 가장 진보된 모델인 Claude Opus 4.5를 공개합니다. “코딩, 에이전트 및 컴퓨터 사용을 위한 세계 최고의 모델”로 소개된 Opus 4.5는 AI 시스템의 진화에 있어 중요한 이정표를 나타냅니다.
Introducing Claude Opus 4.5: the best model in the world for coding, agents, and computer use. Opus 4.5 is a step forward in what AI systems can do, and a preview of larger changes to how work gets done.
🇰🇷 Claude Opus 4.5를 소개합니다: 코딩, 에이전트 및 컴퓨터 사용을 위한 세계 최고의 모델입니다. Opus 4.5는 AI 시스템이 할 수 있는 일의 진보이자, 업무 방식의 더 큰 변화에 대한 미리보기입니다. — @claudeai on X
Opus 4.5가 판도를 바꾸는 이유
Claude Opus 4.5는 단순한 점진적 업데이트가 아닙니다. 이 모델은 여러 핵심 영역에서 질적 도약을 나타냅니다:
지능적 추론
Opus 4.5는 모호성과 절충안 관리에 탁월합니다. 이 모델은 여러 가지 유효한 접근 방식이 존재하는 복잡한 상황을 탐색하고 문맥에 가장 적합한 방식을 선택하는 향상된 능력을 보여줍니다.
확장된 문맥 관리
자동 요약(summarization) 덕분에 Opus 4.5는 대화 길이 제한을 없앱니다. 이 모델은 성능 저하 없이 장시간의 작업 세션 동안 문맥을 유지할 수 있습니다.
멀티 에이전트 조정
가장 큰 진전 중 하나는 멀티 에이전트 시스템을 조율하는 능력에 관한 것입니다. Opus 4.5는 복잡한 작업에서 병렬로 작동하는 여러 자율 프로세스를 조정할 수 있습니다.
고급 Computer Use
이 모델은 이제 다음을 직접 조작할 수 있습니다:
- 스프레드시트 — Excel/Sheets 데이터 분석 및 수정
- 프레젠테이션 — 슬라이드 생성 및 편집
- 브라우저 — 복잡한 웹 작업 자동화
- 데스크톱 애플리케이션 — 네이티브 소프트웨어와의 상호 작용
벤치마크: 숫자가 말해줍니다
소프트웨어 엔지니어링 성능
| 벤치마크 | Opus 4.5 | 개선 사항 |
|---|---|---|
| SWE-bench Verified | State-of-the-art | 절대적인 리더 |
| SWE-bench Multilingual | 7/8 언어 | 7개 언어에서 최고 |
| Aider Polyglot | +10.6% | vs Sonnet 4.5 |
| Vending-Bench | +29% | vs Sonnet 4.5 |
| Terminal Bench | +15% | vs Sonnet 4.5 |
| BrowseComp-Plus | 상당한 이득 | 에이전트적 연구 |
주목할 만한 사실
2시간 제한의 Anthropic 내부 엔지니어링 시험에서 Opus 4.5는 모든 인간 후보자보다 높은 점수를 받았습니다. 이 모델이 도달한 수준을 보여주는 첫 사례입니다.
혁신적인 토큰 효율성
Opus 4.5의 가장 인상적인 측면 중 하나는 토큰 효율성입니다. 이 모델은 훨씬 적은 토큰으로 동등하거나 더 나은 결과를 생성합니다:
| 노력 수준 | 성능 | 토큰 감소 |
|---|---|---|
| 중간 노력 | Sonnet 4.5와 동일 | -76% 토큰 |
| 최대 노력 | +4.3% vs Sonnet 4.5 | -48% 토큰 |
| 긴 작업 | 유지됨 | -65% 토큰 |
이것이 구체적으로 의미하는 바
- 비용 절감 — 더 적은 토큰 = 더 가벼운 API 청구서
- 더 빠른 응답 — 더 적은 생성 = 지연 시간 감소
- 더 효율적인 추론 — 백트래킹 및 중복 탐색 감소
가격 및 가용성
API 액세스
| 매개변수 | 값 |
|---|---|
| Model ID | claude-opus-4-5-20251101 |
| Input 가격 | $5 / 백만 토큰 |
| Output 가격 | $25 / 백만 토큰 |
| Context window | 200K 토큰 |
| Thinking budget | 64K 토큰 |
사용 가능한 플랫폼
- Anthropic API — 직접 액세스
- AWS Bedrock — Amazon 클라우드 통합
- Google Vertex AI — Google 클라우드 통합
- Claude 애플리케이션 — claude.ai, 데스크톱, 모바일
기업들의 평가
초기 사용자의 피드백은 만장일치입니다:
GitHub Copilot
이 모델은 토큰 사용량을 절반으로 줄이면서 내부 코딩 벤치마크를 능가합니다. — Mario Rodriguez, Chief Product Officer
Windsurf AI
Clear winner… best frontier task planning and tool calling.
🇰🇷 확실한 승자… 최고의 프론티어 작업 계획 및 도구 호출. — Jeff Wang, CEO
Replit
Using fewer tokens to solve the same problems.
🇰🇷 같은 문제를 해결하기 위해 더 적은 토큰을 사용합니다. — Michele Catasta, President
Warp
15% improvement over Sonnet 4.5 on Terminal Bench for autonomous tasks. — Zach Lloyd, Founder
Cursor
Notable improvement with improved pricing and intelligence.
🇰🇷 개선된 가격 및 지능으로 인한 눈에 띄는 개선. — Michael Truell, CEO
제품 개선
Opus 4.5는 Claude 생태계의 여러 새로운 기능과 함께 제공됩니다:
Claude Code — 향상된 Plan Mode
- 실행 전 명확화 질문
- 사용자가 편집 가능한
plan.md파일 - 여러 파일 수정에 대한 더 나은 조정
Claude Desktop
- 병렬 로컬 및 원격 세션
- 통합 스크린샷 캡처
- 창을 클릭하여 문맥 공유
- 음성 명령 (Caps Lock을 눌러 말하기)
Claude for Chrome (모든 유료 플랜에서 사용 가능)
초기 베타 버전이었던 Claude for Chrome은 2025년 12월 18일부터 모든 유료 플랜(Pro, Team, Enterprise)에서 사용할 수 있습니다. 이 확장 프로그램을 통해 Claude는 브라우저에서 직접 상호 작용할 수 있습니다:
- 자율 탐색 — 사이트 탐색, 클릭, 양식 작성
- 멀티 탭 — 여러 탭에서 동시에 작업
- 자동화 — 지표 추출, 클라우드 파일 관리, 캘린더 준비
- 통합 — Google Drive, Salesforce, Gmail, CRM
- 예약된 워크플로우 — 일일 또는 주간 자동화
- 보안 — 실행 전 민감한 작업 검토
🔗 Claude for Chrome에 대해 더 알아보기
기타 통합
- Claude for Excel — Max, Team 및 Enterprise로 베타 확장
- 확장된 대화 — 자동 요약 덕분에 길이 제한 없음
안전 및 정렬
Anthropic은 Opus 4.5를 “현재까지 가장 견고하게 정렬된 모델”로 제시합니다:
공격에 대한 저항
- 프롬프트 주입 — 어떤 경쟁 모델보다 속이기 어려움
- 오용 범주 — “우려되는 행동” 점수 감소
System Card
안전 문서는 복잡한 에지 케이스 시나리오에서도 신뢰할 수 있고 예측 가능한 동작을 보장하기 위해 취한 조치를 자세히 설명합니다.
기술 사양
| 사양 | 값 |
|---|---|
| Context window | 200K 토큰 (기본값) |
| Thinking budget | 64K 토큰 (인터리브) |
| 평가 방법 | 5회의 독립적인 시도 평균 |
| 노력 매개변수 | 구성 가능 (속도 vs 능력) |
| 샘플링 | 표준 온도 및 top-p |
아키텍처 이점
- 백트래킹을 줄이는 효율적인 다단계 추론
- 최적화된 문맥 압축
- 긴 세션에서의 지속적인 추론을 위한 메모리 도구
결론
Claude Opus 4.5는 단순한 모델 업데이트 이상을 나타냅니다 — 이것은 효율성과 능력이 함께 발전할 때 AI가 무엇을 성취할 수 있는지를 보여주는 실증입니다.
개발자에게 있어 그 시사점은 분명합니다:
- 코딩 및 자동화 작업에서의 더 나은 성능
- 토큰 효율성으로 인한 비용 절감
- 컴퓨터 사용 및 멀티 에이전트 조정을 통한 새로운 가능성