logo
Loading...

特徵工程前的code資料處理方式? - Cupoy

請問先進 這邊的CODE為何是這樣處理呢?根據註解與比對CODE還是不太了解,謝謝!# 訓練資料需要...

ml100-2

特徵工程前的code資料處理方式?

2019/05/10 下午 02:45
機器學習共學討論版
Ethan Wu
觀看數:7
回答數:1
收藏數:0
ml100-2

請問先進 這邊的CODE為何是這樣處理呢?根據註解與比對CODE還是不太了解,謝謝!

# 訓練資料需要 train_X, train_Y / 預測輸出需要 ids(識別每個預測值), test_X

# 在此先抽離出 train_Y 與 ids, 而先將 train_X, test_X 該有的資料合併成 df, 先作特徵工程

train_Y = np.log1p(df_train['SalePrice'])

ids = df_test['Id']

df_train = df_train.drop(['Id', 'SalePrice'] , axis=1)

df_test = df_test.drop(['Id'] , axis=1)

回答列表

  • 2019/05/10 下午 05:08
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:1

    這段是這樣:


    # 訓練資料需要 train_X, train_Y / 預測輸出需要 ids(識別每個預測值), test_X

    # 在此先抽離出 train_Y 與 ids, 而先將 train_X, test_X 該有的資料合併成 df, 先作特徵工程

    train_Y = np.log1p(df_train['SalePrice']) => 挑選出 SalePrice 欄位,做 Log 運算後當成 Y 值

    ids = df_test['Id'] 

    df_train = df_train.drop(['Id', 'SalePrice'] , axis=1) => 排除 id, SalePrice 欄位,剩下欄位當成訓練資料的 X 值

    df_test = df_test.drop(['Id'] , axis=1) => 排除 id 欄位,剩下欄位當成測試資料的 X 值