titanic範例作業中Survived與PassengerId欄位問題
2020/03/31 09:35 上午
機器學習共學討論版
AC
觀看數:9
回答數:8
收藏數:0
ml100-4
Q1為什麼要將trian.csv裡的Survived與test.csv裡的PassengerId獨立出來各自變成一個變數?又為什麼是用test.csv裡的PassengerId而不是trian.csv裡的PassengerId
Q2為什麼要將trian.csv裡的PassengerId、Survived拿掉?為什麼要將test.csv裡的PassengerId拿掉?(對於PassengerId我的理解是在訓練模型時如果沒有ID只剩下與ID相關的資料沒辦法去核對到底是哪些人可以存活,所以不要拿掉才對;Survived拿掉就不確定原因了)
Q3為什麼要將兩個資料集test.csv與trian.csv concat起來?訓練集與測試集不就是一個是訓練模型一個是測試模型所以是分開使用的啊
In [2]:
train_Y = df_train['Survived']
ids = df_test['PassengerId']
df_train = df_train.drop(['PassengerId', 'Survived'] , axis=1)
df_test = df_test.drop(['PassengerId'] , axis=1)
df = pd.concat([df_train,df_test])
df.head()