Summary

Inverse RL (역강화학습)이란?

일반 RL은 **“주어진 보상 함수 → 최적 정책 학습”**입니다.
반대로 Inverse RL은

  • 전문가(사람 등)의 행동/데모(observations)를 보고
  • 그 행동을 가장 잘 설명하는 **보상 함수  또는 **를 추정하는 것.

쉽게 말해:
“사람이 이렇게 행동했다 → 이 사람 머릿속에 어떤 보상 체계가 있을까?”를 역으로 추론하는 것.

Example

예시 (간단한 개념용, 코드는 아래에서 더 자세히):

  • 차량 운전 데모 → 안전한 운전을 나타내는 보상 (예: 과속 피하기, 차량 간 거리 유지 등)를 추정.
  • RLHF에서 **“사람이 좋아하는 문장”**을 보고, 그 선택을 설명하는 personality/조직/정확성 같은 보상 요소를 추정하는 데 쓰일 수 있음.

대표적인 IRL 방법들:

  • MaxEnt IRL: 주어진 데모를 최대한 잘 설명하면서도 엔트로피를 최대화해서 보상 함수를 유일하게 추정.

  • Apprenticeship Learning: IRL + 그 추정된 보상으로 다시 RL 돌려서 새로운 정책을 학습.