**MLLM(멀티모달 대형 언어 모델)**의 자기 개선 방법론을 최초로 체계적으로 정리하는 종합 서베이
텍스트 전용 LLM 자기 개선이 주목받지만, 멀티모달(이미지·비디오·오디오)에서는 고유한 도전 과제 존재
L0-L5 자율성 스펙트럼: 인간 개입 정도에 따라 6단계로 자기 개선 방법 분류
6가지 메타 분석 패턴 도출: 방법-태스크 정합성, 시드 강도 효과, 벤치마크 불일치, 판정자-보상 누수 등
140+ 참고문헌 포괄
Related Papers
SPIN (Chen et al., 2024): 텍스트 자기 플레이 — MLLM 시각 그라운딩 어려움으로 직접 적용 한계
Constitutional AI: 원칙 기반 자기 피드백 — MLLM에서 다모달 확장 미탐구
STaR: 자기 학습 추론 — 텍스트 전용
차별점: (1) 멀티모달 특화 최초 서베이, (2) 자율주행 레벨에서 영감받은 L0-L5 분류, (3) 6가지 실용적 메타 분석 패턴
Methods
분류 체계 (Taxonomy)
세 축 분류
데이터 수집: 무작위 샘플링 / 가이드 생성(CoT, MCTS) / 부정 샘플 생성
데이터 구성: 검증(규칙·모델·환경 기반) + 배열(필터링·정제·커리큘럼)
모델 최적화: SFT / RL(PPO/GRPO) / DPO / 커리큘럼 학습
L0-L5 자율성 스펙트럼
L0: 완전 인간 주도 (Flamingo)
L1: 인간 가이드 선택 (RLHF-V)
L2: 외부 모델 공급 (LLaVA, GPT-4V)
L3: 하이브리드 자기+외부 검증 (CSR)
L4: 이미지 외 완전 자율 (RLAIF-V)
L5: 완전 자율 이미지+텍스트 (SUDER, UniRL)
방법론 다이어그램
graph TD
A[MLLM 자기 개선 분류] --> B[L0-L5 자율성 스펙트럼]
A --> C[데이터 수집]
A --> D[데이터 구성]
A --> E[모델 최적화]
B --> B0["L0: 완전 인간 주도"]
B --> B2["L2: 외부 모델 공급"]
B --> B4["L4: 이미지 외 자율"]
B --> B5["L5: 완전 자율"]
C --> C1[무작위 샘플링]
C --> C2["가이드 생성<br/>(CoT, MCTS)"]
C --> C3[부정 샘플 생성]
D --> D1[검증: 규칙·모델·환경]
D --> D2[배열: 필터링·정제·커리큘럼]
E --> E1[SFT]
E --> E2["RL (PPO/GRPO)"]
E --> E3[DPO]
style B fill:#e3f2fd
style B5 fill:#fff3e0