logo
Loading...

做特徵工程前,為何需從 df_train 抽出 train_Y? - Cupoy

老師您好,想請問一些 Day17 範例中的問題:1. 在做特徵工程前,要先從 df_train 抽出...

ml100-2,dataframe,特徵工程,ml100-2-d17

做特徵工程前,為何需從 df_train 抽出 train_Y?

2019/05/04 04:58 AM
機器學習新手論壇
Charles
觀看數:0
回答數:2
收藏數:0
ml100-2
dataframe
特徵工程
ml100-2-d17

老師您好,想請問一些 Day17 範例中的問題:


1. 在做特徵工程前,要先從 df_train 抽出 train_Y 的意義是什麼?抽出 ids 我能理解是為了後續將輸出結果 pred 與 ids 對照合併,但為什麼要拿未特徵工程過的 train_Y 和已特徵工程過的 train_X 去跑模型呢?


2. 為什麼要先抽出 df_train 中的 train_Y 和 df_test 中的 ids,才能讓兩個 dataframe 合併做特徵工程呢?


3. 前陣子看 Jimmy 老師有提到說,正規的機器學習理論上是不允許使用任何 test data 的資訊的。那麼將 train 和 test 接起來再做特徵工程,這樣是可以的嗎?還是說基本的欄位調整和特徵縮放這樣的處理,是可以被接受的。