본문으로 건너뛰기

Juhyeon's Blog

❯

Reinforcement Learning

❯

❯

Inverse Reinforcement Learning(IRL)

Inverse Reinforcement Learning(IRL)

2026년 4월 13일2분 분량

Summary

Inverse RL (역강화학습)이란?

일반 RL은 **“주어진 보상 함수 → 최적 정책 학습”**입니다.
반대로 Inverse RL은

전문가(사람 등)의 행동/데모(observations)를 보고

그 행동을 가장 잘 설명하는 **보상 함수 $R (s)$ 또는 $R (s, a)$ **를 추정하는 것.

쉽게 말해:
“사람이 이렇게 행동했다 → 이 사람 머릿속에 어떤 보상 체계가 있을까?”를 역으로 추론하는 것.

Example

예시 (간단한 개념용, 코드는 아래에서 더 자세히):

차량 운전 데모 → 안전한 운전을 나타내는 보상 (예: 과속 피하기, 차량 간 거리 유지 등)를 추정.

RLHF에서 **“사람이 좋아하는 문장”**을 보고, 그 선택을 설명하는 personality/조직/정확성 같은 보상 요소를 추정하는 데 쓰일 수 있음.

대표적인 IRL 방법들:

MaxEnt IRL: 주어진 데모를 최대한 잘 설명하면서도 엔트로피를 최대화해서 보상 함수를 유일하게 추정.

Apprenticeship Learning: IRL + 그 추정된 보상으로 다시 RL 돌려서 새로운 정책을 학습.

공유하기

그래프 뷰

Properties

No properties

백링크

The Student's Guide to Cognitive NeuroScience
Memory
Architecture
Benchmarks
LLMs
Fundamentals
self-consciousness
Theory of mind
Vision

Created with Quartz v4.5.2 © 2026

GitHub
Blog