logo
Loading...

#6.1 Actor Critic 演员评论家 (强化学习 Reinforcement Learning 教学) - 莫烦Python - 機器學習 Machine Learning 公開課 - Cupoy

结合了 Policy Gradient (Actor) 和 Function Approximation (Critic) 的方法. Actor 基于概率选行为, Critic 基于 Actor 的行...

结合了 Policy Gradient (Actor) 和 Function Approximation (Critic) 的方法. Actor 基于概率选行为, Critic 基于 Actor 的行为评判行为的得分, Actor 根据 Critic 的评分修改选行为的概率.详细的文字教程: https://mo...