特徵相關性問題
2019/10/02 下午 01:15
機器學習共學討論版
林睿晢
觀看數:55
回答數:2
收藏數:0
ml100-3
ml100-3-d30
老師你好,在D30的作業中,我們預測的變數是Survived,這個變數是類別資料,如果要找出高相關性的變數,量對類別資料是要用T檢定,類別對類別資料是用卡方檢定,但是作業這邊是用corr,算出相關係數,作為篩選標準,這個部份我有點不懂,請專家解答
回答列表
-
2019/10/02 下午 11:44張維元 (WeiYuan)贊同數:1不贊同數:0留言數:2
你的意思是「類別的相關應該要用 T檢定 或 卡方檢定計算,不能用 corr 」嗎?不過 corr 其實也可以的設定用於類別資料的相關係數!
-
2019/10/03 下午 01:30陳明佑 (Ming You Chen)贊同數:0不贊同數:0留言數:1
這邊用 corr ,主要是判定數值型特徵間的相關度, 用以排除特徵共線性的問題
尤其在資料少的時候, 這樣的篩選方式更為重要