特徵工程前的code資料處理方式?
2019/05/10 下午 02:45
機器學習共學討論版
Ethan Wu
觀看數:7
回答數:1
收藏數:0
ml100-2
請問先進 這邊的CODE為何是這樣處理呢?根據註解與比對CODE還是不太了解,謝謝!
# 訓練資料需要 train_X, train_Y / 預測輸出需要 ids(識別每個預測值), test_X
# 在此先抽離出 train_Y 與 ids, 而先將 train_X, test_X 該有的資料合併成 df, 先作特徵工程
train_Y = np.log1p(df_train['SalePrice'])
ids = df_test['Id']
df_train = df_train.drop(['Id', 'SalePrice'] , axis=1)
df_test = df_test.drop(['Id'] , axis=1)
回答列表
-
2019/05/10 下午 05:08張維元 (WeiYuan)贊同數:1不贊同數:0留言數:1
這段是這樣:
# 訓練資料需要 train_X, train_Y / 預測輸出需要 ids(識別每個預測值), test_X
# 在此先抽離出 train_Y 與 ids, 而先將 train_X, test_X 該有的資料合併成 df, 先作特徵工程
train_Y = np.log1p(df_train['SalePrice']) => 挑選出 SalePrice 欄位,做 Log 運算後當成 Y 值
ids = df_test['Id']
df_train = df_train.drop(['Id', 'SalePrice'] , axis=1) => 排除 id, SalePrice 欄位,剩下欄位當成訓練資料的 X 值
df_test = df_test.drop(['Id'] , axis=1) => 排除 id 欄位,剩下欄位當成測試資料的 X 值