人工神经网络 AlphaGo中的机器学习 策略网络 监督学习:预测下一步人类移动的最佳结果 强化学习:学习去选择下一步移动去最大化获胜率 价值网络 在给定当前状态的情况下获胜的期望 通过神经网络实现 人工神经网络是深度学习的基础