[수정문의] 1-grid-world/4-q-learning Agent의 Epsilon 값 #11

rrbb014 · 2020-10-27T08:26:16Z

안녕하세요.
예제를 실행하던 중, Q-table 에서는 장애물로 가는 액션들이 -50 까지도 가는 상황이고
max(Q(s', a')) 를 할텐데도 에이전트가 자꾸 장애물로 가서 보았더니
E-greedy parameter가 0.9로 설정되어 대부분 랜덤액션을 하는 것으로 추정했습니다.

서적 상에는 0.1 로 표기가 되어있고 SARSA에서도 0.1로 설정되어있는데
epsilon 파라미터의 오류가 아닐까 하여 이슈제기 드립니다.

rrbb014 mentioned this issue Oct 27, 2020

FIXED: epsilon parameter for e-greedy selection #12

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[수정문의] 1-grid-world/4-q-learning Agent의 Epsilon 값 #11

[수정문의] 1-grid-world/4-q-learning Agent의 Epsilon 값 #11

rrbb014 commented Oct 27, 2020

[수정문의] 1-grid-world/4-q-learning Agent의 Epsilon 값 #11

[수정문의] 1-grid-world/4-q-learning Agent의 Epsilon 값 #11

Comments

rrbb014 commented Oct 27, 2020