logo
Loading...

標準化是否一定有必要性以及為何對有些模型有影響? - Cupoy

老師您好: 是否可以再請教對於數據標準化的必要前提為何?是因為各特徵的分布差異不一的關係是嗎? 另外...

標準化是否一定有必要性以及為何對有些模型有影響?

2021/04/21 下午 02:30
數值型特徵 - 補缺失值與標準化
Yaoga
觀看數:207
回答數:3
收藏數:0

老師您好: 是否可以再請教對於數據標準化的必要前提為何?是因為各特徵的分布差異不一的關係是嗎? 另外對於以下說明: 非樹狀模型 : 如線性迴歸, 羅吉斯迴歸, 類神經...等,標準化 / 最小最大化後對預測會有影響 樹狀模型 : 如決策樹, 隨機森林, 梯度提升樹...等,標準化 / 最小最大化後對預測不會有影響 為何非樹狀或樹狀的模型標準化後會有不同影響呢? 最近在做一個機器學習的專案,在樹狀模型採用了Standarascale的標準化處理, 但卻發現未標準化的預測結果反而比有標準化的還要來得好 這算是正常的嗎?還是會因為不同案例而定呢? 會有這樣的結果是否是因為樹狀模型都不用特地去標準化呢?

回答列表

  • 2021/04/21 下午 02:35
    Yaoga
    贊同數:0
    不贊同數:0
    留言數:0

    另外再補充詢問 若是要看線性模型的係數關聯性 或是 樹狀模型的特徵重要性 是否都要未經標準化前的原始數據去看才會有意義呢?

  • 2021/04/22 上午 00:20
    Jaio
    贊同數:0
    不贊同數:0
    留言數:0

    1. 為何非樹狀或樹狀的模型標準化後會有不同影響呢? 首先要了解標準化是針對資料特徵的「數值」進行轉換,所以「標準化是否影響到模型的預測」這個問題的答案是看「該模型是否用到各個特徵的數值直接去做預測,還是用各個特徵數值間的分布關係 (各個特徵出現的機率) 去做預測」,因為標準化完的資料,特徵彼此間的分布不會改變 (例如原本 normal distribution 不會變成 uniforly distribution),舉個例子 : 決策數 (可參考 : http://mslab.csie.asia.edu.tw/~jackjow/courses/992_DataMining/ppt/04_classfication_new.pdf (p.7~p.21) ) 2. 這算是正常的嗎?還是會因為不同案例而定呢? 這應該是不正常,還是說在建構模型中有直接使用到特徵的數值而不是特徵間的分布關係,就有可能影響到結果,所以第三個問題你應該能舉一反三~ 3. 是否都要未經標準化前的原始數據去看才會有意義呢? 線性的相關性標準化前後會一樣,而樹狀模型本身就在做特徵重要性的選取。 請問這樣有解決到你的問題嗎。 若有錯請大師糾正~

  • 2021/04/24 下午 10:36
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    嗨,你好
    標準化是因為欄位跟欄位之間會計算距離及權重,因此不同的欄位範圍可能會導致權重不公平。換句話說,權重是從欄位間的距離所衡量出來的,所以背後有一個距離公式。但樹狀結構的重要性是基於 entroy 的算法,各別欄位是獨立的,彼此的衡量是以對欄位的資訊量(使用標準化反而影響原本欄位代表的資訊量)。

    嗨,你好,我是維元,持續在不同的平台發表對 #資料科學、 #網頁開發 或 #軟體職涯 相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流,都可以追蹤 我的粉絲專頁 ヽ(●´∀`●)ノ