Command R+ (Cohere)

Digest: Command R+는 Cohere가 2024년 4월 발표한 104B 파라미터 엔터프라이즈 LLM으로, RAG(Retrieval-Augmented Generation)와 Tool Use에 최적화된 것이 핵심 차별점이다. 10개 주요 비즈니스 언어를 지원하며, 인용(citation) 기반 응답 생성 — 모든 주장에 소스 문서를 인용하여 hallucination을 줄이고 검증 가능성을 높인다. 128K 컨텍스트를 지원하며, GPT-4 Turbo에 근접하는 성능을 보이면서 상업적 배포에 더 적합한 비용 구조를 제공한다. 학술 논문은 없으며, 블로그와 모델 카드 기반 정보이다.

알려진 스펙

항목	Command R+	Command R
파라미터	104B	35B
Context Length	128K	128K
지원 언어	10개 (영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 포르투갈어, 일본어, 한국어, 아랍어, 중국어)	10개
최적화 영역	RAG, Tool Use, 코드, 추론	RAG
인용 생성	✅ (grounded citations)	✅
Tool Use	✅ (함수 호출, 다단계)	✅
아키텍처	미공개 (Transformer decoder-only 추정)	미공개

RAG 특화 기능

graph TD
    A["사용자 쿼리"] --> B["검색 시스템<br/>(외부 문서 검색)"]
    B --> C["검색된 문서 조각들"]
    C --> D["Command R+<br/>128K context"]
    D --> E["인용 포함 응답<br/>[1][2][3] 태그"]
    E --> F["검증 가능한 답변"]

Tool Use 파이프라인

graph TD
    A["사용자 요청"] --> B["Command R+"]
    B --> C{"Tool 호출 필요?"}
    C -->|Yes| D["함수 호출 생성<br/>(JSON 형식)"]
    D --> E["외부 API 실행"]
    E --> F["결과 반환"]
    F --> B
    C -->|No| G["직접 응답"]

벤치마크 비교

주요 벤치마크

벤치마크	Command R+ (104B)	GPT-4 Turbo	Claude 3 Sonnet	Mistral Large
MMLU	75.7	86.4	79.0	81.2
GSM8K	70.7	92.0	73.0	—
HumanEval	56.7	67.0	—	—
MT-Bench	—	—	—	—

RAG 특화 벤치마크

벤치마크	Command R+	GPT-4	Claude 3
인용 정확도	높음	중간	중간
문서 기반 QA	최적화	범용	범용
Tool Use 정확도	높음	높음	중간
다국어 RAG	✅ (10개 언어)	✅	✅

동시대 비교 매트릭스

특성	Command R+ (2024.04)	GPT-4 Turbo	Claude 3 Opus	LLaMA 3-70B
파라미터	104B	미공개	미공개	70B
Context	128K	128K	200K	8K/128K
RAG 특화	✅ (핵심 기능)	범용	범용	범용
인용 생성	✅ (내장)	프롬프트 필요	프롬프트 필요	프롬프트 필요
Tool Use	✅ (다단계)	✅	✅	기본
오픈소스	❌ (API) / Weights 공개	❌	❌	✅
핵심 기여	RAG/Tool Use 최적화	범용 최강	추론/안전	오픈소스

한계

학술 논문 부재: 아키텍처·학습 상세 미공개, 재현 불가
범용 성능: GPT-4 대비 MMLU, 추론에서 열세
비용 구조: 104B 모델의 추론 비용
제한적 벤치마크: RAG 특화 벤치마크가 아직 표준화되지 않아 공정 비교 어려움

Juhyeon's Blog

탐색기

Command R+ (Cohere)

Command R+ (Cohere)

알려진 스펙

RAG 특화 기능

Tool Use 파이프라인

벤치마크 비교

주요 벤치마크

RAG 특화 벤치마크

동시대 비교 매트릭스

한계

그래프 뷰

목차

Properties

백링크