logo
Loading...

HW23 ANS - Cupoy

1.估計效果 : 計數編碼 > 計數編碼 + 特徵雜湊 > 特徵雜湊 > 標籤編碼所以可以看出, 計...

ml100-2,ml100-2-d23

HW23 ANS

2019/05/15 上午 00:08
機器學習共學討論版
Richard
觀看數:6
回答數:2
收藏數:0
ml100-2
ml100-2-d23

1.估計效果 : 計數編碼 > 計數編碼 + 特徵雜湊 > 特徵雜湊 > 標籤編碼

所以可以看出, 計數編碼是相對比較有效的特徵

特徵雜湊依照不同的Hash空間, 效果未必理想, 只是資訊比較密集, 計算上較快

混合使用也未必比只有計數編碼的效果好


=>程式不是顯示特徵雜湊 分數比較高嗎? 為何這邊說計數編碼 最好?

2.不理解,為何範例程式與解答程式都要在此加上['Name']

count_df = df.groupby(['Cabin'])['Name'].agg({'Cabin_Count':'size'}).reset_index()

回答列表

  • 2019/05/15 上午 00:10
    Richard
    贊同數:0
    不贊同數:0
    留言數:0

    標題應該是HW24

  • 2019/05/15 下午 02:30
    陳明佑 (Ming You Chen)
    贊同數:0
    不贊同數:0
    留言數:0

    同學您好 : 上面這些都是Day024的內容喔,  不是Day023的


    1. 特徵雜湊的分數會因為會隨機變動很大

    在之前的執行中, 跑出分數較低的結果

    您可以試著跑跑看, 可能結果也會不同


    2. 如果沒有count_df, 就無法再接下去的那一行將原始表格加上計數編碼

    (merge需要count_df)

    同學遇到這種"為什麼會多出來"的問題, 可以先把這行註解掉後再跑跑看

    應該可以很快就能發現為什麼需要這行了