본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: human-feedback
1건의 항목
2026년 6월 04일
Training language models to follow instructions with human feedback - InstructGPT
paper
RLHF
alignment
LLM
InstructGPT
PPO
reward-model
OpenAI
NeurIPS2022
human-feedback
fine-tuning