HW23 ANS
2019/05/15 上午 00:08
機器學習共學討論版
Richard
觀看數:6
回答數:2
收藏數:0
ml100-2
ml100-2-d23
1.估計效果 : 計數編碼 > 計數編碼 + 特徵雜湊 > 特徵雜湊 > 標籤編碼
所以可以看出, 計數編碼是相對比較有效的特徵
特徵雜湊依照不同的Hash空間, 效果未必理想, 只是資訊比較密集, 計算上較快
混合使用也未必比只有計數編碼的效果好
=>程式不是顯示特徵雜湊 分數比較高嗎? 為何這邊說計數編碼 最好?
2.不理解,為何範例程式與解答程式都要在此加上[
'Name'
]
count_df
=
df
.
groupby
([
'Cabin'
])[
'Name'
].
agg
({
'Cabin_Count'
:
'size'
}).
reset_index
()
回答列表
-
2019/05/15 上午 00:10Richard贊同數:0不贊同數:0留言數:0
標題應該是HW24
-
2019/05/15 下午 02:30陳明佑 (Ming You Chen)贊同數:0不贊同數:0留言數:0
同學您好 : 上面這些都是Day024的內容喔, 不是Day023的
1. 特徵雜湊的分數會因為會隨機變動很大
在之前的執行中, 跑出分數較低的結果
您可以試著跑跑看, 可能結果也會不同
2. 如果沒有count_df, 就無法再接下去的那一行將原始表格加上計數編碼
(merge需要count_df)
同學遇到這種"為什麼會多出來"的問題, 可以先把這行註解掉後再跑跑看
應該可以很快就能發現為什麼需要這行了