關於Imputer的問題
2019/10/04 上午 11:15
機器學習共學討論版
doris
觀看數:15
回答數:2
收藏數:0
d16
嗨
在D16 下述範例程式中,發現在補值的時候,皆是以train的中位數補到train和test的缺值中。
(1) 為什麼要這樣呢?
(2) 能不能分別取train和test的中位數(兩份csv是分開的,所以數值不相互影響),再分別補進去各自的缺值中?
回答列表
-
2019/10/05 上午 00:59張維元 (WeiYuan)贊同數:1不贊同數:0留言數:1
(1) 為什麼要這樣呢?
=> 你的意思是問為什麼範例要這樣設計?還是程式為什麼會產生這樣的結果?
(2) 能不能分別取train和test的中位數(兩份csv是分開的,所以數值不相互影響),再分別補進去各自的缺值中?
=> 可以的!根據不同的資料,可能會有不同的情境啊!
-
2019/10/07 上午 00:38張維元 (WeiYuan)贊同數:1不贊同數:0留言數:1
「(1) 為什麼範例都要用train的中位數去補train和test的缺值?而不是分別取train和test的中位數,然後分別填入train和test的缺值?」
=> 因為實際上,你事前是拿不到 test 的資料,也就是說根本無法計算 test 的平均。