Skip to content

Latest commit

 

History

History
12 lines (7 loc) · 372 Bytes

97_A3C_课程笔记.md

File metadata and controls

12 lines (7 loc) · 372 Bytes

A3C:异步A2C方法

A3C代表了异步优势动作评价(Asynchronous Advantage Actor Critic)

  • 异步:算法设计并行执行一组环境
  • 优势:因为策略梯度的更新使用优势函数
  • 动作评价:这是一种动作评价方法,设计在一个学的的状态值函数帮助下进行更新的策略

网络结构图

A3C算法