logo
Loading...

使用葉編碼的問題 - Cupoy

大家好,關於葉編碼的過程,想要做個確認。謝謝。DAY30 葉編碼作業中,根據鐵達尼號作業的案例。1....

ml100-2,ml100-2-d30

使用葉編碼的問題

2019/05/17 08:26 AM
機器學習新手論壇
蔡汶修
觀看數:0
回答數:1
收藏數:1
ml100-2
ml100-2-d30

大家好,關於葉編碼的過程,想要做個確認。謝謝。


DAY30 葉編碼作業中,根據鐵達尼號作業的案例。

1. 會先透過「隨機森林」來產生「葉點位置」。

2. 將「葉點位置」透過OneHotEncoder來編碼。

3. 透過羅吉斯回歸作運算。


案例中的隨機森林是採取n_estimators=20及max_features=4的條件。

產出的葉點位置為 222 * 20的矩陣(222個樣本*20棵樹)。


rf.apply(train_X)[3]  4號樣本的20棵樹位置為

[ 3,  6,  4,  4,  6, 10, 10,  8,  8,  4,  4,  4, 10,  6,  6,  5,  4, 7,  7,  6]


rf.apply(train_X)[4]  5號樣本的20棵樹位置為

[ 3,  7,  4,  6, 11, 11, 11,  8,  8, 13, 11,  3, 13,  6,  6,  8, 11, 6,  6,  6]


問題1. 

第1棵樹而言(0號位置,視為1號特徵),4號樣本與5號樣本都放在第3個葉子中。

所以代表他們在這個特徵之中是雷同的。請問以上認知是否正確?謝謝。


問題2.

dfa = pd.DataFrame(rf.apply(train_X))

將RF的結果輸出成df觀察:

np.unique(dfa[[0]])  ### 編號0號樹的葉子位置

[ 3,  4,  6,  7, 10, 11, 13, 14]


np.unique(dfa[[1]])  ### 編號1號樹的葉子位置

[ 3,  4,  6,  7, 10, 11, 12]


np.unique(dfa[[2]]) ### 編號2號樹的葉子位置

[ 3,  4,  6,  7, 10, 11, 13, 14]


>>> 以編號0號樹舉例,34的相似性,是否高於314的相似性?

換句話說,單棵樹中的葉子位置編號是否具有順序性?謝謝。


 

問題繁多,還請各位前輩見諒。謝謝。


BR,

Kam