PPO代码存在critic loss无限增长的问题 #10

BroOfBallSis · 2023-05-14T05:52:04Z

使用此处的PPO代码，训练时总是发现critic loss不断增长，甚至会增长到1e18的数量级；
经比较其他地方的PPO代码，怀疑是此处的PPO代码在计算target_value时使用了当前的critic网络来计算batch中state的value，
因此导致值估计越推越高；
将代码改为在replay buffer中存入记录的同时存入state的值估计，而不是在计算target_value时计算state的值估计，
critic loss无限增长的问题得到解决。

Ethan21435 · 2023-05-14T08:04:55Z

您好，有做结果的保存吗？

RisingAuroras · 2023-06-08T03:17:51Z

@BroOfBallSis 请问，你改动后，性能有没有提升呢，critic loss有时确实会出现这种问题，但是只要expected return是上升趋势我觉得还ok

futalemontea · 2024-03-11T13:43:37Z

是的 PPO_discrete 的update函数存在问题

Starlight0798 · 2024-06-01T07:27:04Z

你好，能否要下您的修正代码？

使用此处的PPO代码，训练时总是发现critic loss不断增长，甚至会增长到1e18的数量级；经比较其他地方的PPO代码，怀疑是此处的PPO代码在计算target_value时使用了当前的critic网络来计算batch中state的value，因此导致值估计越推越高；将代码改为在replay buffer中存入记录的同时存入state的值估计，而不是在计算target_value时计算state的值估计， critic loss无限增长的问题得到解决。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

PPO代码存在critic loss无限增长的问题 #10

PPO代码存在critic loss无限增长的问题 #10

BroOfBallSis commented May 14, 2023

Ethan21435 commented May 14, 2023

RisingAuroras commented Jun 8, 2023

futalemontea commented Mar 11, 2024

Starlight0798 commented Jun 1, 2024

PPO代码存在critic loss无限增长的问题 #10

PPO代码存在critic loss无限增长的问题 #10

Comments

BroOfBallSis commented May 14, 2023

Ethan21435 commented May 14, 2023

RisingAuroras commented Jun 8, 2023

futalemontea commented Mar 11, 2024

Starlight0798 commented Jun 1, 2024