【QA】集成學習(Ensemble Learning)中的boosting方法是什麼??
之前有介紹過集成學習的的Bagging以及如何用決策樹做Bagging,本次想就集成學習的另一種方法Boosting來進討論
回答列表
-
2021/08/23 下午 10:47Ray贊同數:0不贊同數:0留言數:0
Boosting通常用於學習成效很弱的模型上的,當我們有很弱的模型的時候,不能fit我們的data的時候,我們就可以用Boosting的方法。要想使Boosting能夠起到良好效果有兩個重要條件,一個是改變訓練資料權重的方法是否恰當;另一個是預先知道弱分類器識別準確率的下限。如果你的機器學習算法能產生錯誤率小於50%的分類器,這個方法可以保證錯誤率達到0%。 與Bagging不同的是Boosting的弱分類器的訓練是有順序的,並且每個弱分類器之間有一定的關聯性,而Bagging的弱分類器則是沒有順序的,全部的弱分類器可以同時訓練,不用一個一個來  [參考圖片來源](https://towardsdatascience.com/ensemble-learning-bagging-boosting-3098079e5422) Boosting是透過修改資料權重(尤其是錯誤資料的權重)得到新的資料集以訓練新的分類器,一開始會有一個初始的弱分類器,透過將舊分類器的錯誤資料權重提高,然後再訓練新的分類器,這樣新的分類器就會學習到錯誤分類資料(misclassified data)的特性,進而提升分類結果;  [參考圖片來源](https://towardsdatascience.com/boosting-algorithms-explained-d38f56ef3f30) 但是這又會產生一個問題:由於Boosting將注意力都集中在錯誤的資料上,這導致Boosting對於訓練資料當中的雜訊非常敏感,如果一筆訓練資料中雜訊資料很多的話,後面分類器都會集中在進行雜訊資料上分類,反而會影響最終的分類性能,因此在考慮是否要使用該方法時,也必須要將現有資料當中的雜訊多寡納入考量。 >(ta>left: 有興趣進一步深入了解的人可以參考該[連結](https://www.cs.princeton.edu/courses/archive/spr07/cos424/papers/boosting-survey.pdf)