為甚麼建立train_X時,需要在train_X後加入[:train_num],使得train_X = df_temp[:train_num],讓train_X.shape[0]=train_Y.shape[0]?
2019/07/04 下午 08:52
機器學習共學討論版
ting
觀看數:33
回答數:2
收藏數:0
ml100-2
ml100-2-d22
你好
為甚麼建立train_X時,需要在train_X後加入[:train_num], 使得train_X = df_temp[:train_num],
讓train_X.shape[0]=train_Y.shape[0]?
回答列表
-
2019/07/05 下午 05:11陳明佑 (Ming You Chen)贊同數:1不贊同數:0留言數:0
同學您好 :
這主要是因為在做特徵工程的時候
將 train_X 與 test_X 合併一起處裡, 比較方便(不用重複打兩次)
這樣做唯一的不便之處, 只在於處理完後要重新切開, 而您提的就是切開的這行程式
因為必須要告訴程式從哪裡切開, 而 train_num 就是存切開的位置
您也可以選擇不這樣做
只是中間特徵工程的部分, train與test就要分開打, 而且不能遺漏喔
-
2019/07/08 上午 10:35張維元 (WeiYuan)贊同數:2不贊同數:0留言數:0
這個是手動切 train_X & test_X 的做法,其實也可以用 train_test_split 處理。或是特徵工程做完,到訓練模型前再切!