HW23 ANS - Cupoy

2019/05/15 上午 00:08

機器學習共學討論版

Richard

觀看數：6

回答數：2

收藏數：0

ml100-2

ml100-2-d23

1.估計效果 : 計數編碼 > 計數編碼 + 特徵雜湊 > 特徵雜湊 > 標籤編碼

所以可以看出, 計數編碼是相對比較有效的特徵

特徵雜湊依照不同的Hash空間, 效果未必理想, 只是資訊比較密集, 計算上較快

混合使用也未必比只有計數編碼的效果好

=>程式不是顯示特徵雜湊分數比較高嗎? 為何這邊說計數編碼最好?

2.不理解,為何範例程式與解答程式都要在此加上['Name']

count_df = df.groupby(['Cabin'])['Name'].agg({'Cabin_Count':'size'}).reset_index()