logo
Loading...

D26 新增特徵組合後,線性迴歸 / 梯度提升樹比率變化問題 - Cupoy

如D26作業,使用緯度差, 經度差, 座標距離特徵計算線性迴歸 / 梯度提升樹結果為:Linear ...

ml100-2,ml100-2-d26

D26 新增特徵組合後,線性迴歸 / 梯度提升樹比率變化問題

2019/05/14 上午 00:20
機器學習共學討論版
lolololol
觀看數:10
回答數:1
收藏數:1
ml100-2
ml100-2-d26

如D26作業,使用緯度差, 經度差, 座標距離特徵計算

線性迴歸 / 梯度提升樹結果為:

Linear Reg Score : 0.02747902580681085
Gradient Boosting Reg Score : 0.8059786997870237

我加入新特徵後,線性迴歸正確率提升,但梯度提升樹結果卻下降

df['distance_real'] = # 我加入的新特徵
train_X = scaler.fit_transform(df)
print('Linear Reg Score : %s' % cross_val_score(Linear, train_X, train_Y, cv=5).mean())
print('Gradient Boosting Reg Score : %s' % cross_val_score(GDBT, train_X, train_Y, cv=5).mean())

'''output'''
Linear Reg Score : 0.030082856712116544
Gradient Boosting Reg Score : 0.8018675477066125

請問這樣有代表甚麼意涵嗎?

是更為準確,還是不一定?

回答列表

  • 2019/05/14 上午 10:41
    陳明佑 (Ming You Chen)
    贊同數:0
    不贊同數:0
    留言數:0

    建議您可以先提交後看解答

    解答跑出來的分數也是類似 : 增加後反而下降

    主要是因為當地地形的差異, 遠大於緯度差 (紐約市地形多南北向, 因此東西向反而費用較高)


    在解決現實問題與競賽問題時, 這類理論與落差很大的狀況也很常見

    所以理論只是提供選項, 

    實際上還是要以 cross validation 的分數, 決定特徵是否該增加/如何增加