【QA】什麼是強化學習中的Ｑ learning演算法? - Cupoy

增強學習 (Reinforcement learning) 是一種機器學習方法，而 Q-learni...

【QA】什麼是強化學習中的Ｑ learning演算法?

2021/09/22 下午 08:12

機器學習共學討論版

Chili

觀看數：4590

回答數：1

收藏數：0

增強學習 (Reinforcement learning) 是一種機器學習方法，而 Q-learning 是增強學習中一個最知名的演算法，我想跟大家討論一下Q-learning 的概述。

回答列表

2021/09/22 下午 08:18

Chili

贊同數：0

不贊同數：0

留言數：0

* What is Q-learning ? Ｑ-learning 是強化學習的一種方法，主要是透過記錄學習過的策略，來告訴智能體(Agent)，什麼情況下要對應採取什麼行動(Action)會得到最大的講獎勵（Reward）。Q-learning 最基本的應用方式，就是將對應行動的獎勵值存在一個Ｑ表中（Q-table）。（但這種方式受限於狀態與動作的數目，不適用於連續的動作中） --- * Q-table Q-table 簡單來說就是一個查詢表，用來計算某狀態下做某行為後未來可以期望得到最大的Reward為多少。這個表可以以倒我們選出每個狀態(state)下，最好的行為（Action）。 ---- * 如何計算Q table ![image](http://kwassistfile.cupoy.com/0000017C0D6BF892000000276375706F795F72656C65617365414E53/1630891912742/large) [圖片來源](https://hackmd.io/@shaoeChen/Bywb8YLKS/https%3A%2F%2Fhackmd.io%2F%40shaoeChen%2FSyqVopoYr) 用上面的方程式，可以計算出表中每一個Ｑ值。 (如果想要了解Q-learning演算法，可以看這篇文章的說明:https://hackmd.io/@shaoeChen/Bywb8YLKS/https%3A%2F%2Fhackmd.io%2F%40shaoeChen%2FSyqVopoYr) --- # 演算法步驟 * 初始化Q table：先建立一個Q表，Action數量為表中的Column數，State數量則為Row數，一開始的值皆為0。 ![image](http://kwassistfile.cupoy.com/0000017C0D6BF892000000276375706F795F72656C65617365414E53/1630891912743/large) [圖片來源](https://www.freecodecamp.org/news/an-introduction-to-q-learning-reinforcement-learning-14ac0b4493cc/) * 選擇與執行某個Action：我們根據Q表，選擇一個Action配上State。 (既然一開始值皆為0，我們一開始就需要模型自己先探索和發現，行動的Reward會是多少，這個探索的觀念我們稱為Epsilon Greedy Strategy) （更多關於Epsilon Greedy Strategy可以看另一個問題：https://www.cupoy.com/qa/club/ai_tw/0000016D6BA22D97000000016375706F795F72656C656173654B5741535354434C5542/0000017C0D77576F0000002A6375706F795F72656C656173655155455354）在一開始，我們會盡量讓模型自己先不要依據Q表做決定，先隨機採取行動，並評估Reward，通過調高Epsilon比率，來讓模型多做探索的工作。直到後面資料筆數夠多後，我們可以透過降低Epsilon比率，讓模型可以依據Q表的紀錄，來採取會產生最多Reward的行為。 --- * 評估與更新：我們採取某行動，觀察其結果與獎勵（Reward）後，我們透過下面這個方程式來更新Ｑ值。 ![image](http://kwassistfile.cupoy.com/0000017C0D6BF892000000276375706F795F72656C65617365414E53/1630891912744/large) [圖片來源](https://www.freecodecamp.org/news/an-introduction-to-q-learning-reinforcement-learning-14ac0b4493cc/) 此演算法簡單的蓋念為利用過去與最近的權重平均來迭代更新數值。其中R(s,a)表示獎勵值，其中 α為學習率(0<α≤1)，γ為衰減系數(0≤γ≤1)，當 γ數值越大時，Agent便更加重視未來獲得的長期獎勵， γ數值越小時，Agent便更加短視近利，只在乎目前可獲得的獎勵。 ---- 參考資料： https://hackmd.io/@shaoeChen/Bywb8YLKS/https%3A%2F%2Fhackmd.io%2F%40shaoeChen%2FSyqVopoYr https://www.freecodecamp.org/news/an-introduction-to-q-learning-reinforcement-learning-14ac0b4493cc/ https://www.youtube.com/watch?v=HTZ5xn12AL4