A3C:异步A2C方法 A3C代表了异步优势动作评价(Asynchronous Advantage Actor Critic) 异步:算法设计并行执行一组环境 优势:因为策略梯度的更新使用优势函数 动作评价:这是一种动作评价方法,设计在一个学的的状态值函数帮助下进行更新的策略 网络结构图 A3C算法