本週影片主要涵蓋 1.強化學習 2.Q-learning 強化學習概念 主要概念為視 "環境" 執行 "動作",並期望得到最佳收益或者利益。其核心概念就是 trial & error! 強化學習四元素 Policy: 針對環境所因應的準則 Reward: 行為的Feedback (Ex: 加分或扣分) Value Function: 評估狀態的價值函數,狀態的價值即從當前狀態開始,期望在未來獲得的獎賞。 Model: 模擬環境