logo
Loading...

了解離散化? - Cupoy

老師您好:這次的主題是將資料進行離散化,但有一點我不太確定。1. 當資料是連續型,例如年齡。而我們在...

ml100-3,ml100-3-d18

了解離散化?

2019/09/14 上午 05:02
機器學習共學討論版
高培原
觀看數:142
回答數:3
收藏數:0
ml100-3
ml100-3-d18

老師您好:

這次的主題是將資料進行離散化,但有一點我不太確定。

1. 當資料是連續型,例如年齡。而我們在做pd.cut()時,將資料分組分群,這樣將資料分成一群一群的狀態就可稱為離散化嗎?


(a) 分群分組:

(b) 未分群分組

回答列表

  • 2019/09/14 下午 11:03
    Jimmy
    贊同數:0
    不贊同數:0
    留言數:0

    Hi 培原


    你的理解是正確的喔! 這樣的好處是可以把連續的資料轉換為類別型的資料,有時候能夠減少離群值帶來的影響!

  • 2019/09/15 上午 01:58
    張維元 (WeiYuan)
    贊同數:2
    不贊同數:0
    留言數:0

    補充另外一個觀點,有時候連續可能會將資料的特性分散開,離散(分群)之後可以將這個性質展現出來。例如:有些用天看不出什麼特性的資料,改成用週或季,可能就可以把週期性呈現出來!

  • 2019/09/15 上午 04:01
    高培原
    贊同數:0
    不贊同數:0
    留言數:0

    謝謝兩位老師。 另外,我在進行這次作業時,我做了一個測試:探索資料離散化後的準確率是否上升? 但未離散化的與離散化的準確率差異不大。有個疑點: 

    1.如老師您說的離散化可以將一些特性展現出來,但在預測上卻不一定會提高準確率?  


    補充: 

    過程是這樣: 

    1. 取3個與TARGET相關性高的3個Feature來預測TARGET 

    2. 將沒有離散化的資料進行cross_val_score看準確率如何 

    3. 將3個Feature中的BIRTH_DAYS轉換成年齡後,進行離散化分組 

    4. 將每組資料分別進行cross_val_score再取平均 

    5. 比較沒有離散化的和離散化的結果 

    結論:將離散化的每組準確率平均後,其結果並沒有比未離散化的結果高,兩者結果都在0.92左右。