Command R+ (Cohere)

Digest: Command R+는 Cohere가 2024년 4월 발표한 104B 파라미터 엔터프라이즈 LLM으로, RAG(Retrieval-Augmented Generation)와 Tool Use에 최적화된 것이 핵심 차별점이다. 10개 주요 비즈니스 언어를 지원하며, 인용(citation) 기반 응답 생성 — 모든 주장에 소스 문서를 인용하여 hallucination을 줄이고 검증 가능성을 높인다. 128K 컨텍스트를 지원하며, GPT-4 Turbo에 근접하는 성능을 보이면서 상업적 배포에 더 적합한 비용 구조를 제공한다. 학술 논문은 없으며, 블로그와 모델 카드 기반 정보이다.


알려진 스펙

항목Command R+Command R
파라미터104B35B
Context Length128K128K
지원 언어10개 (영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 포르투갈어, 일본어, 한국어, 아랍어, 중국어)10개
최적화 영역RAG, Tool Use, 코드, 추론RAG
인용 생성✅ (grounded citations)
Tool Use✅ (함수 호출, 다단계)
아키텍처미공개 (Transformer decoder-only 추정)미공개

RAG 특화 기능

graph TD
    A["사용자 쿼리"] --> B["검색 시스템<br/>(외부 문서 검색)"]
    B --> C["검색된 문서 조각들"]
    C --> D["Command R+<br/>128K context"]
    D --> E["인용 포함 응답<br/>[1][2][3] 태그"]
    E --> F["검증 가능한 답변"]

Tool Use 파이프라인

graph TD
    A["사용자 요청"] --> B["Command R+"]
    B --> C{"Tool 호출 필요?"}
    C -->|Yes| D["함수 호출 생성<br/>(JSON 형식)"]
    D --> E["외부 API 실행"]
    E --> F["결과 반환"]
    F --> B
    C -->|No| G["직접 응답"]

벤치마크 비교

주요 벤치마크

벤치마크Command R+ (104B)GPT-4 TurboClaude 3 SonnetMistral Large
MMLU75.786.479.081.2
GSM8K70.792.073.0
HumanEval56.767.0
MT-Bench

RAG 특화 벤치마크

벤치마크Command R+GPT-4Claude 3
인용 정확도높음중간중간
문서 기반 QA최적화범용범용
Tool Use 정확도높음높음중간
다국어 RAG✅ (10개 언어)

동시대 비교 매트릭스

특성Command R+ (2024.04)GPT-4 TurboClaude 3 OpusLLaMA 3-70B
파라미터104B미공개미공개70B
Context128K128K200K8K/128K
RAG 특화✅ (핵심 기능)범용범용범용
인용 생성✅ (내장)프롬프트 필요프롬프트 필요프롬프트 필요
Tool Use✅ (다단계)기본
오픈소스❌ (API) / Weights 공개
핵심 기여RAG/Tool Use 최적화범용 최강추론/안전오픈소스

한계

  • 학술 논문 부재: 아키텍처·학습 상세 미공개, 재현 불가
  • 범용 성능: GPT-4 대비 MMLU, 추론에서 열세
  • 비용 구조: 104B 모델의 추론 비용
  • 제한적 벤치마크: RAG 특화 벤치마크가 아직 표준화되지 않아 공정 비교 어려움