了解離散化?
2019/09/14 上午 05:02
機器學習共學討論版
高培原
觀看數:142
回答數:3
收藏數:0
ml100-3
ml100-3-d18
老師您好:
這次的主題是將資料進行離散化,但有一點我不太確定。
1. 當資料是連續型,例如年齡。而我們在做pd.cut()時,將資料分組分群,這樣將資料分成一群一群的狀態就可稱為離散化嗎?
(a) 分群分組:
(b) 未分群分組
回答列表
-
2019/09/14 下午 11:03Jimmy贊同數:0不贊同數:0留言數:0
Hi 培原
你的理解是正確的喔! 這樣的好處是可以把連續的資料轉換為類別型的資料,有時候能夠減少離群值帶來的影響!
-
2019/09/15 上午 01:58張維元 (WeiYuan)贊同數:2不贊同數:0留言數:0
補充另外一個觀點,有時候連續可能會將資料的特性分散開,離散(分群)之後可以將這個性質展現出來。例如:有些用天看不出什麼特性的資料,改成用週或季,可能就可以把週期性呈現出來!
-
2019/09/15 上午 04:01高培原贊同數:0不贊同數:0留言數:0
謝謝兩位老師。 另外,我在進行這次作業時,我做了一個測試:探索資料離散化後的準確率是否上升? 但未離散化的與離散化的準確率差異不大。有個疑點:
1.如老師您說的離散化可以將一些特性展現出來,但在預測上卻不一定會提高準確率?
補充:
過程是這樣:
1. 取3個與TARGET相關性高的3個Feature來預測TARGET
2. 將沒有離散化的資料進行cross_val_score看準確率如何
3. 將3個Feature中的BIRTH_DAYS轉換成年齡後,進行離散化分組
4. 將每組資料分別進行cross_val_score再取平均
5. 比較沒有離散化的和離散化的結果
結論:將離散化的每組準確率平均後,其結果並沒有比未離散化的結果高,兩者結果都在0.92左右。