Summary

강화학습 맥락에서, 특정 state에서 특정 action에 따른 즉각적인 scalar feedback.
env에 depend