logo
Loading...

train_test_split切分成train_X, val_X, train_Y, val_Y的涵義 - Cupoy

1.train_X, test_X, train_Y, test_Y = train_test_sp...

train_test_split

train_test_split切分成train_X, val_X, train_Y, val_Y的涵義

2020/04/02 08:50 AM
機器學習新手論壇
江柏勳
觀看數:0
回答數:4
收藏數:6
train_test_split

1.

train_X, test_X, train_Y, test_Y = train_test_split(train_X, train_Y, test_size=0.5)
train_X
, val_X, train_Y, val_Y = train_test_split(train_X, train_Y, test_size=0.5)

想請問這個東西會得到甚麼結果嗎?(我只能大概理解他再把資料分類,4個變數的意義是?

雖然這看似就是固定的寫法了)

2.

gdbt.fit(train_X, train_Y)
onehot
.fit(gdbt.apply(train_X)[:, :, 0])
lr
.fit(onehot.transform(gdbt.apply(val_X)[:, :, 0]), val_Y)

這個有點顛覆我對apply()對DataFrame作用的認知,他是在?

3.

# 因為擬合(fit)與編碼(transform)需要分開, 因此不使用.get_dummy, 而採用 sklearn 的 OneHotEncoder

呃,是指先fit再transform嗎?,為何分開就不用get_dummy

4.

# 將梯度提升樹+葉編碼+邏輯斯迴歸結果輸出
pred_gdbt_lr
= lr.predict_proba(onehot.transform(gdbt.apply(test_X)[:, :, 0]))[:, 1]
fpr_gdbt_lr
, tpr_gdbt_lr, _ = roc_curve(test_Y, pred_gdbt_lr)
# 將梯度提升樹結果輸出
pred_gdbt
= gdbt.predict_proba(test_X)[:, 1]
fpr_gdbt
, tpr_gdbt, _ = roc_curve(test_Y, pred_gdbt)

請問這些參數是?(我覺得我花時間找找好了)

想請問各位大神(還是稱呼老師or教練),恩.....你們如何記得每一個函式的寫法?