logo
Loading...

調整與捨棄離群值 - Cupoy

請問先進如下的程式,如下兩段的差別 底線加粗的部分 請問是怎做到調整 與捨棄離群值呢?謝謝# 將 G...

ml100-2

調整與捨棄離群值

2019/05/10 下午 04:28
機器學習共學討論版
Ethan Wu
觀看數:5
回答數:1
收藏數:0
ml100-2

請問先進如下的程式,如下兩段的差別 底線加粗的部分 請問是怎做到調整 與捨棄離群值呢?謝謝

# 將 GrLivArea 限制在 800 到 2500 以內, 調整離群值

 df['GrLivArea'] = df['GrLivArea'].clip(800, 2500) 

sns.regplot(x = df['GrLivArea'], y=train_Y) 

plt.show()

# 將 GrLivArea 限制在 800 到 2500 以內, 捨棄離群值 

keep_indexs = (df['GrLivArea']> 800) & (df['GrLivArea']< 2500) 

df = df[keep_indexs] 

train_Y = train_Y[keep_indexs] 

sns.regplot(x = df['GrLivArea'], y=train_Y) 

plt.show()

回答列表

  • 2019/05/10 下午 05:02
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:1

    這題是設定 GrLivArea 的正常值會在 800 到 2500 以內,其他當成是離群值。因此,將 GrLivArea 限制在 800 到 2500 以內,用 df select  方式留下,其他捨棄。