不是很懂訓練/預測用的格式這樣撰寫的原因?
2019/09/12 下午 10:23
機器學習共學討論版
李衡
觀看數:72
回答數:3
收藏數:0
ml100-3
ml100-3-d12
# 重組資料成為訓練 / 預測用格式
train_Y = np.log1p(df_train['SalePrice'])
ids = df_test['Id']
df_train = df_train.drop(['Id', 'SalePrice'] , axis=1)
df_test = df_test.drop(['Id'] , axis=1)
df = pd.concat([df_train,df_test])
回答列表
-
2019/09/13 上午 00:37張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
哪一段不懂?你的問題太廣了,不知道從哪裡回答起。可以先從你懂的地方解釋看看!
-
2019/09/14 上午 01:12BC Kung贊同數:0不贊同數:0留言數:0
將 df_train 與 df_test 兩個 DataFrame做合併
然後將我們想要預測的欄位 'SalePrice' ,從 df_train 中抽出來
df 變成一個純粹的 model 的輸入角色,train_Y 變成一個純粹的model 的輸出純量。
接著就可以直接在 df 這個對象上,操作將na值補零,補平均等等操作
-
2019/09/19 下午 02:12WP贊同數:1不贊同數:0留言數:1
我同樣不太明白 concat train/test 的目的, 後段又要花功夫從df 分離配合 train_Y 行數.
之後真的進行測試才將df_test fillna 不是更合理簡單嗎?