p.198 수식 5.21 질문 #53

driedpollack · 2020-08-11T06:48:25Z

안녕하세요. 좋은 책으로 즐겁게 공부하고 있습니다.
p.198에 수식 5.21에 보면 policy gradient theorem에 의해서 유도된 gradient J (theta)가 expectation의 형태로 나타나지는데,
이 부분에 대한 식이 잘 이해가 안되서 Sutton 교수님의 RL:an introduction 책을 살펴보니 이 책에는 Expectation 안에 Sigma가 있는데 (구체적으로 Sutton 교수님 책 p.326, equation 13.6입니다.) 혹시 오타인가요?

이는 p.198 중간 쯤에 sigma_s * d_pi(x) * sigma_a * pi(a | s)가 에이전트가 어떤 상태 s에서 행동 a를 선택할 확률이라는 부분에서 오류가 있는 것 같습니다.

혹시 제가 잘못 이해하고있다면, 보충 설명이나 자료 공유해주시면 감사하겠습니다.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

p.198 수식 5.21 질문 #53

p.198 수식 5.21 질문 #53

driedpollack commented Aug 11, 2020

p.198 수식 5.21 질문 #53

p.198 수식 5.21 질문 #53

Comments

driedpollack commented Aug 11, 2020