強化學習主要可以分成不理解環境的 Model Free RL,和理解環境的 Model Based RL這兩種。其中不理解環境 Model Free RL 只能透過行為實驗獲得積分的回饋標籤,而理解環...