검색

DiffusionGemma 4배 더 빠르게, Claude Code 동적 워크플로 GA, Grok Voice #1 EVA-Bench

ai-powered-markdown-translator

gpt-5.4-mini로 fr에서 번역된 기사.

GitHub에서 프로젝트 보기 ↗

2026년 6월 10일은 여러 소식으로 가득한 날이다. Google DeepMind는 이미지 생성 확산 모델과 같은 반복적 디노이징 원리를 적용해 한 번에 텍스트 블록 전체를 생성하는 새로운 확산 기반 텍스트 생성 아키텍처인 DiffusionGemma를 공개했으며, H100에서 초당 1,000 토큰에 도달한다. NVIDIA는 이를 로컬 하드웨어용으로 즉시 최적화했다. 개발자 도구 측면에서는 Anthropic이 Claude Code의 동적 워크플로를 최대 5단계의 에이전트 재귀를 지원하는 정식 제공으로 전환했고, xAI는 Grok Voice Think Fast 1.0을 EVA-Bench에서 1위로 올려놓았다. GitHub, OpenAI, Perplexity, Cohere도 한층 풍성한 발표를 더했다.


DiffusionGemma: 256토큰 블록의 병렬 생성, GPU에서 4배 더 빠름

6월 10일 — Google DeepMind는 Apache 2.0 라이선스로 공개한 260억 파라미터 규모의 실험적 오픈 모델 DiffusionGemma를 출시했다. 이 모델은 전문가 혼합(Mixture of Experts) 아키텍처를 사용한다. 특징은 기존의 전형적인 자기회귀 모델처럼 토큰을 하나씩 생성하는 대신, 이미지 확산 모델의 반복적 디노이징 원리를 적용해 256토큰 블록을 동시에 생성한다는 점이다.

결과적으로 전용 GPU에서 최대 4배 더 빠르다. 이 모델은 추론 시 38억 개의 파라미터만 활성화하며, 양자화하면 18GB VRAM 안에 들어가므로 고급 소비자용 GPU에서도 사용할 수 있다. 양방향 어텐션은 자기회귀 모델로는 다루기 어려운 사용 사례를 열어 준다. 예를 들면 인라인 편집, 코드 완성, 아미노산 서열, 수학 그래프 등이 있다.

NVIDIA는 텐서 코어(Tensor Cores)를 활용해 DiffusionGemma를 자사 GPU에 즉시 최적화했으며, 이는 자기회귀 아키텍처가 메모리 대역폭에 의해 제약을 받는 지점과 대조적이다. 서로 다른 하드웨어에서 측정된 성능은 다음과 같다.

하드웨어성능
NVIDIA H100 (서버)1,000 tokens/s
NVIDIA DGX Station최대 800 tokens/s
NVIDIA DGX Spark (로컬)150 tokens/s
GeForce RTX 5090 (양자화)700+ tokens/s
GeForce RTX 4090 (양자화)llama.cpp 지원 예정

가중치는 Hugging Face에서 이용할 수 있으며, HF Transformers, vLLM, Unsloth에서 즉시 지원된다. 또한 이 모델은 build.nvidia.com에서 무료로 테스트할 수 있다.

중요: Google은 출력 품질이 Gemma 4 표준 모델보다 낮다고 명시적으로 밝힌다. DiffusionGemma는 빠른 반복과 인라인 편집 같은 상호작용형 로컬 워크플로를 탐색하는 개발자를 대상으로 하며, 프로덕션 용도는 아니다.

“DiffusionGemma is our new experimental open model with up to 4x faster output on dedicated GPUs. Instead of predicting word-by-word, it generates entire blocks of text simultaneously.”

🇰🇷 DiffusionGemma는 전용 GPU에서 최대 4배 더 빠른 출력을 제공하는 우리의 새로운 실험적 오픈 모델입니다. 단어를 하나씩 예측하는 대신, 전체 텍스트 블록을 동시에 생성합니다.@GoogleDeepMind X에서

🔗 Google DeepMind 발표 · 🔗 NVIDIA 최적화


Claude Code v2.1.172: 동적 워크플로의 정식 제공, 최대 5단계 재귀적 서브에이전트

6월 10일 — Anthropic은 Claude Code의 동적 워크플로(dynamic workflows)가 정식 제공 단계로 들어갔다고 발표했다. 5월 28일 연구 미리보기로 소개된 이 기능은 Claude가 자체 오케스트레이션을 설계하고, 수십에서 수백 개의 서브에이전트를 병렬로 실행해 복잡한 작업을 끝까지 처리할 수 있게 한다.

같은 날 공개된 v2.1.172 CLI 버전은 이 기능과 연결되는 핵심 능력을 추가했다. 서브에이전트가 이제 자신의 서브에이전트를 생성할 수 있으며, 최대 5단계 중첩까지 가능하다. 이것이 동적 워크플로를 대규모로 운영 가능하게 만드는 기술적 기반이다.

주요 사용 사례:

  • 저장소 전체 규모의 버그 추적, 보안 감사
  • 수천 개의 파일에 걸친 코드 마이그레이션(예: Bun의 Zig→Rust 포팅 11일)
  • 결과를 전달하기 전 적대적 검증

가용성과 조건:

항목세부 내용
플랜Max, Team, Enterprise(관리자 활성화 시), Claude API
클라우드 플랫폼Amazon Bedrock, Vertex AI, Microsoft Foundry
활성화Create a workflow 명령 또는 ultracode 매개변수(xhigh 노력)
서브에이전트 깊이최대 5단계
CLI 버전v2.1.172

참고: 동적 워크플로는 일반적인 Claude Code 세션보다 훨씬 더 많은 토큰을 소비한다. Claude Code는 첫 실행 전에 확인을 표시한다. Enterprise 관리자는 관리형 설정을 통해 이 기능을 비활성화할 수 있다.

v2.1.172의 기타 변경 사항: 크레딧 없이 1M 컨텍스트에서 세션이 영구적으로 멈추는 버그 수정, 브라우저의 /plugin 검색창, Amazon Bedrock이 이제 ~/.aws에서 AWS 리전을 읽음(AWS_REGION가 정의되지 않은 경우), 백그라운드 에이전트에 대한 다수의 안정성 수정.

🔗 @claudeai 발표 · 🔗 Dynamic Workflows 블로그 · 🔗 CHANGELOG


Grok Voice Think Fast 1.0 — EVA-Bench 1위

6월 10일 — xAI는 자사의 음성 모델 Grok Voice Think Fast 1.0이 ServiceNow AI Research의 EVA-Bench 순위에서 Pareto frontier에 올라섰다고 발표했다. Pareto frontier는 평가 내 다른 어떤 시스템도 정확도와 사용자 경험 품질을 동시에 능가하지 못한다는 뜻이다.

xAI는 자연스러운 타이밍, 맥락에 맞는 억양, 인간과 비슷하게 느껴지는 따뜻함이라는 세 가지 특징을 강조한다. 이 모델은 xAI 음성 API의 x.ai/api/voice에서 제공되며, 경쟁사보다 현저히 낮은 가격으로 소개된다.

지표
EVA-Bench 순위Pareto frontier (1위)
가용성x.ai/api/voice API
가격 포지셔닝경쟁사 가격의 일부(xAI 기준)

“Grok Voice offers state-of-the-art performance with human-like timing, tone, and warmth. And it’s a fraction the price of competitors.”

🇰🇷 Grok Voice는 인간과 비슷한 타이밍, 톤, 따뜻함으로 최첨단 성능을 제공합니다. 그리고 가격은 경쟁사 대비 일부에 불과합니다.@xai X에서

🔗 EVA-Bench 결과


Apple Private Cloud Compute의 NVIDIA Confidential Computing (WWDC 2026)

6월 9일WWDC 2026에서 발표된 이 Apple–NVIDIA–Google 3자 통합은 클라우드 AI 개인정보 보호에 있어 구조적인 전환점을 보여준다. Confidential Computing을 갖춘 NVIDIA Blackwell GPU가 이제 Apple의 Private Cloud Compute (PCC) 인프라에 통합되며, 이는 Apple 데이터센터를 넘어 Google Cloud까지 확장된다.

목표는 Apple Intelligence 요청을 서버 측에서 처리하되, 절대적인 암호학적 기밀성을 보장하는 것이다. 즉, 시스템을 만든 사람조차 포함해 누구도 사용자의 데이터, 대화, 채팅에 접근할 수 없다.

보호 메커니즘:

  • 하드웨어 기반 신뢰(hardware-rooted trust): 인프라가 변조되지 않았음을 검증
  • 구성 요소 간 암호화된 통신 경로
  • 원격 증명(remote attestation): 민감한 데이터를 전송하기 전에 소프트웨어가 플랫폼의 보안 상태를 검증
  • GPU 성능 저하 없이 가속 추론 지원

이 아키텍처는 Apple이 개인정보 보호 약속을 유지하면서 Google Cloud에서 Apple Intelligence를 확장할 수 있게 해 준다. 업계에서는 보기 드문 조합이다. NVIDIA에게는 대규모 소비자용 배포에서 Blackwell Confidential Computing이 광범위하게 채택된 사례다.

🔗 NVIDIA 블로그


Anthropic: 계획된 에이전트, 비밀 금고, 그리고 규제 프레임워크

Claude Managed Agents — 계획된 배포와 변수 금고

6월 9일 — Code with Claude Tokyo에서 발표된 두 가지 새로운 기능이 Claude Managed Agents에 공개 베타로 도입된다.

계획된 배포(scheduled deployments): 에이전트가 이제 수동 개입 없이 일정에 따라 자동으로 실행될 수 있다. 일일 보고서, 주기적 점검, 정기 데이터 파이프라인 등에 적합하다.

금고 속 변수(vaults): 에이전트는 코드나 세션 설정에 키를 노출하지 않고, 관리형 금고를 통해 비밀 정보와 설정에 접근한다.

기능상태
계획된 배포공개 베타
금고 속 변수공개 베타
플랫폼Claude Managed Agents

🔗 Claude Managed Agents의 새로운 기능

Policy on the AI Exponential — Anthropic의 규제 프레임워크

6월 10일 — Anthropic은 Dario Amodei의 에세이와 함께 Policy on the AI Exponential을 발표했다. 핵심은 AI 역량이 입법 절차가 따라잡을 수 있도록 설계되지 않은 속도로 지수적으로 발전하고 있다는 점이다.

이 문서는 10²⁵ 플롭(FLOP) 이상의 연산으로 훈련된 모델, 또는 AI 관련 매출이 5억 달러를 넘거나 AI R&D에 10억 달러 이상을 지출하는 기업이 개발한 모델을 대상으로 한다. 또한 생물학적 위험, 사이버 위험, AI 시스템에 대한 통제 상실, AI R&D 자체의 자동화라는 네 가지 범주의 치명적 위험을 식별한다.

제안된 의무설명
투명성의무적 테스트, 결과 공개
독립적 평가최소 1명의 자격 있는 외부 평가자
보안국가 단위 행위자로부터 가중치 보호
정부 권한위험한 모델을 차단하거나 연기할 권한

“AI is advancing at a pace our policymaking institutions were never built for—and the gap between the two is becoming the central challenge of the technology.”

🇰🇷 AI는 우리의 입법 기관이 그렇게 작동하도록 설계되지 않은 속도로 발전하고 있으며, 그 간격 자체가 이 기술이 던지는 핵심 과제가 되고 있습니다.@AnthropicAI X에서

🔗 Policy on the AI Exponential


GitHub Copilot: 모두에게 열린 앱, 보이는 에이전트 세션, CLI 보안 점검

Copilot App — 대기자 명단 없는 공개 기술 미리보기

6월 10일 — GitHub Copilot 앱의 기술 미리보기는 이제 대기자 명단 없이 모든 Copilot Pro, Pro+, Max, Business, Enterprise 구독자에게 제공된다. 에이전트용으로 설계된 이 데스크톱 앱은 에이전트 세션 관리, 풀 리퀘스트 생성, 개발 작업 제어를 데스크톱에서 한곳에 모아 준다. 즉, 티켓에서 PR까지 한 자리에서 처리할 수 있다.

🔗 @github 발표

Copilot Chat에서 이제 에이전트 세션을 볼 수 있음

6월 10일 — GitHub은 Copilot Chat과 클라우드 에이전트 사이의 전환을 개선했다. Copilot Chat에는 두 가지 새 도구가 추가됐다: Get agent logs(풀 리퀘스트에 대한 에이전트 세션 로그를 대화에서 직접 질의 가능)와 Session search(주제, 제목, 날짜별로 과거 세션 검색 및 요약). 진행 중인 세션의 상태도 이제 채팅에 실시간으로 반영된다.

🔗 Changelog

Copilot CLI — /security-review 명령(실험적 공개 미리보기)

6월 10일 — 새로운 슬래시 /security-review 명령이 GitHub Copilot CLI의 실험적 공개 미리보기로 제공된다. 이 명령은 터미널에서 로컬 코드 변경 사항을 직접 분석한다: 주입(SQL, 명령), XSS, 안전하지 않은 데이터 처리, 경로 탐색, 약한 암호화. 결과는 심각도와 신뢰도로 점수화되며, 터미널을 떠나지 않고 적용할 수 있는 제안도 함께 제공된다. 이 명령은 GitHub code scanning과 Dependabot과는 별개이며, 가벼운 온디맨드 분석으로 이를 보완한다.

🔗 Changelog

Manus — Zoom Connector

6월 9일 — Manus는 Zoom Connector를 출시해, 연결된 계정에서 접근 가능한 회의 내용을 에이전트가 자동으로 분석할 수 있게 했다: 요약, 전사, 녹화, 노트, 안건, 화이트보드, 참석자 정보. 주요 사용 사례는 세 가지다: 회의 온디맨드 분석, Slack 또는 이메일로 보고서를 보내는 정기 자동 검토, 여러 회의에 걸친 추세 분석. 제한 사항: Manus는 연결된 Zoom 계정이 볼 수 있는 리소스만 접근한다.

🔗 Manus 블로그


xAI와 Kimi: 파트너십과 스웜 에이전트

Grok + eToro — 실시간 X 데이터로 구동되는 Tori 에이전트

6월 10일 — xAI와 eToro는 eToro의 AI 에이전트 Tori(75개국 4,000만 명 사용자)가 이제 xAI 모델과 X 플랫폼의 실시간 데이터를 통합해 시장 심리(market sentiment)를 분석한다고 발표했다. Tori는 실시간 심리 변화, 라이브 신호 추적, 정보 분석이 가능하다. 같은 실시간 인텔리전스는 xAI API 콘솔을 통해 모든 개발자에게도 제공된다.

🔗 xAI 뉴스

Kimi Agent Swarm — 2026 월드컵 104경기 예측

6월 9일 — Kimi(Moonshot AI)는 2026 FIFA 월드컵의 104경기를 예측하기 위해 300개의 서브에이전트를 병렬로 배치한다. 각 에이전트는 전술, 선수 컨디션, 역사 데이터, 대중 심리, 날씨, 심리학, 배당 변동 등 고유한 분석 관점을 가진다. 시스템은 Elo/FIFA 모델, Poisson/Dixon-Coles, Monte-Carlo 시뮬레이션, 동적 베이지안 업데이트를 사용한다. 식별된 시그널: 독일의 우승 확률은 베팅 시장의 약 7.4%에 비해 **약 11.3%**로 추정된다.

🔗 @Kimi_Moonshot 발표


OpenAI Codex: Claude Code에서의 마이그레이션과 Ableton 쇼케이스

Codex app 26.608 — Claude Code에서의 마이그레이션과 플러그인 개편

6월 9일Codex app 26.608 업데이트는 Claude CodeClaude Cowork의 설정을 자동으로 가져오는 Migrate to Codex 흐름을 도입했으며, 앱 첫 실행 시에도 가능하다. 플러그인 인터페이스는 별도 탭, 카테고리 필터가 있는 마켓플레이스, 개선된 키보드 탐색으로 완전히 새로워졌다. 설정 검색은 Git과 시각적 맞춤 설정까지 확장되었다.

기능세부 내용
Claude Code/Cowork 마이그레이션온보딩 포함 자동 가져오기
Plugins screen탭, 마켓플레이스, 카테고리 필터
Settings searchGit, 시각적 맞춤 설정까지 확장

🔗 Codex Changelog


Perplexity와 Cohere: 멀티모델 오케스트레이션과 음성 벤치마크

Perplexity Computer가 Claude Fable 5를 오케스트레이터로 통합

6월 10일 — Perplexity는 다단계 에이전트 인터페이스인 Perplexity Computer의 오케스트레이터 모델로 Claude Fable 5를 통합했다고 발표했다. 이 통합은 ProMax 구독자에게만 제공된다.

🔗 @perplexity_ai 발표

Cohere Transcribe, Hugging Face의 Far-Field ASR 벤치마크에서 1위

6월 10일 — Cohere의 오픈소스 음성 인식 모델 Cohere Transcribe가 실제 오디오 환경(회의실, 컨택센터, 전화 통화)에서의 견고성을 시험하도록 설계된 Hugging Face의 새로운 Far-Field ASR 벤치마크에서 1위를 차지했다.

모델WER Far-Field ASR
Cohere Transcribe17,9
IBM Granite Speech~19,8
NVIDIA Parakeet~21,5

이 모델은 여전히 Apache 2.0 라이선스이며 로컬에서 실행할 수 있다. 또한 2026년 3월 일반 범용 OpenASR 리더보드에서도 이미 1위를 기록한 바 있다.

🔗 @cohere의 발표


Gemini App: 소규모 기업을 위한 새로운 기능

6월 10일 — 상파울루에서 열린 Google for Brazil 행사에서 Google은 소규모 기업을 겨냥한 두 가지 Gemini App 기능을 발표했으며, 2026년 6월 전 세계 출시가 예정되어 있다.

Google Business Profile 연결: 사용자는 Gemini 앱 안에서 자신의 프로필을 직접 연결할 수 있다. 연결이 완료되면 Gemini는 고객 리뷰, 질문, 성과 데이터를 활용해 맞춤형 권장 사항을 제안한다. 여기에는 월간 성과 분석, 브랜드의 톤에 맞춘 리뷰 답변 작성, 영업시간 및 프로필 업데이트가 포함된다.

Business notebooks: 기업이 대화, 소스, Google Business 프로필을 한곳에 정리하는 중앙화된 공간이다. Gemini는 이를 지식 기반으로 활용해 대화의 연속성을 유지하고, 선제적 알림(미응답 고객 질문, 공휴일 영업시간 미기재 등)을 제공한다.

🔗 Google 블로그


간추린 소식

  • 6월 10일 Gemini 장애 — 제품 책임자 Josh Woodward가 오후 7시 31분에 서비스 장애를 알렸으며, 일부 수정 사항은 이미 배포되었다고 전했다. 🔗 @joshwoodward
  • GitHub Enterprise — cost centers 500개 — 기업당 cost center 한도가 250개에서 500개로 늘어났으며, 별도 설정 없이 자동 적용된다. 🔗 변경 내역
  • Dependabot이 Deno 지원 — Deno 버전 업데이트가 deno.github/dependabot.yml 항목을 통해 지원된다(보안 업데이트는 아직 미지원). 🔗 변경 내역
  • npm v12 — 2026년 7월의 호환성 깨짐 변경 사항 — 설치 스크립트, Git 의존성, 원격 URL이 기본적으로 차단된다. 미리 대비하려면 npm 11.16.0+로 업데이트하는 것이 권장된다. 🔗 변경 내역
  • Alibaba Wan — Fisheye Lens — 일반 이미지를 fish-eye 스타일의 원형 초광각 뷰로 변환하는 새 도구가 Wan의 시각 기술 갤러리에 추가되었다. 🔗 @Alibaba_Wan
  • Z-Image-Engineer-V6 — Z-Image-Turbo(Tongyi Lab / Alibaba)를 위한 교체 가능한 텍스트 인코더로, 간단한 프롬프트를 영화 같은 설명으로 바꿔준다. Hugging Face에서 이용할 수 있다. 🔗 @Ali_TongyiLab
  • Qwen-Image-Edit-2511 + LoRA — face swap, 포즈, 가상 피팅, 다각도 렌더링을 지원하는 범용 LoRA 매트릭스를 갖춘 Qwen-Image-Edit-2511용 새로운 커뮤니티 Hugging Face 공간. 🔗 @Ali_TongyiLab
  • ChatGPT for iOS 1.2026.153 — Codex Mobile의 새로운 기능 — worktrees, /goal.
  • Ableton Live의 Codex — @OpenAIDevs가 @sound4movement라는 음악가를 소개하며, 그가 트랙 설명만으로 Codex를 사용해 Ableton Live를 자동 설정하는 방식을 보여준다. 🔗 @OpenAIDevs
  • Cohere Labs — AI와 일의 미래 — AI가 고용에 미치는 영향에 대한 논쟁 속 증거 격차를 다룬 보고서를 발표하며, 새로운 연구 방향을 제시했다. 🔗 @cohere

이것이 의미하는 바

새로운 추론 아키텍처: 토큰 단위 생성의 종말? DiffusionGemma는 개방형 텍스트 확산 아키텍처를 대규모로 공개적으로 시연한 최초의 사례이며, 출시 당일 NVIDIA가 곧바로 모델을 최적화했다는 사실은 이 방향이 산업적으로도 진지하게 받아들여지고 있음을 보여준다. 전용 GPU에서 4배 성능 향상은 결코 사소하지 않다. 메모리 대역폭(자기회귀 방식의 고질적 병목)에서 병목을 텐서 연산 코어로 옮겨 놓기 때문이다. 현재 한계( Gemma 4보다 낮은 품질)와 생산 환경이 아니라 개발자를 명시적으로 겨냥한 점은 이것이 즉시 대체재가 아니라 연구 경로임을 시사한다. 하지만 서로 다른 분야(음성)에서 Grok Voice의 EVA-Bench Pareto 벤치마크가 보여주듯, 효율성 경쟁은 이제 여러 아키텍처 전선에서 동시에 벌어지고 있다.

에이전트 자율성: 약속에서 인프라로. 재귀를 5단계까지 지원하는 Claude Code의 동적 워크플로우 GA와 Claude Managed Agents의 예약 배포 및 비밀 금고가 결합되면서 패러다임 전환이 구체화되고 있다. 에이전트는 더 이상 일회성 도구가 아니라, 비밀 정보에 안전하게 접근할 수 있는 지속적이고 예약 가능한 프로세스가 되었다. Kimi Agent Swarm이 104개 경기에서 300개의 하위 에이전트를 운용한 사례는 Moonshot AI 측에서도 같은 흐름이 있음을 보여준다. 그리고 Perplexity Computer가 오케스트레이터로 Claude Fable 5를 통합한 것은 에이전트 경쟁이 모델 자체만큼이나 도구화 수준에서도 벌어지고 있음을 시사한다.

프라이버시와 신뢰: Apple–NVIDIA–Google 축. Google Cloud의 Apple PCC에 NVIDIA Confidential Computing이 통합된 것은 구조적으로 매우 의미가 크다. 이는 대중용 배포가 GPU 가속, 암호학적 프라이버시 보장, 제3자 클라우드 인프라를 동시에 결합할 수 있음을 보여준다. 이는 틈새시장이 아니다. Apple Intelligence는 수억 대의 기기에 영향을 미친다. 이 아키텍처가 표준화된다면, 민감한 개인정보를 다루는 AI 서비스의 사실상 표준이 될 수 있다.

개발자 생태계: 도구화 경쟁과 통합의 심화. Codex 26.608이 Claude Code에서의 마이그레이션 흐름을 제공한다는 점은 결코 사소하지 않다. 이는 개발자들이 이미 경쟁 도구에 자신의 환경을 투자해 왔고, 전환 비용을 낮춰야 한다는 사실을 인정한 것이다. 한편 GitHub Copilot은 “agent-native” 접근(대기자 명단 없는 앱, 채팅에서 보이는 에이전트 세션, CLI 보안 검토)으로 속도를 내고 있다. 6월 10일은 모델의 순수 성능보다 개발자의 일상 워크플로우에 얼마나 깊게 통합되느냐가 차별화의 기준이 되는 생태계를 보여준다.


출처