調整與捨棄離群值
2019/05/10 下午 04:28
機器學習共學討論版
Ethan Wu
觀看數:5
回答數:1
收藏數:0
ml100-2
請問先進如下的程式,如下兩段的差別 底線加粗的部分 請問是怎做到調整 與捨棄離群值呢?謝謝
# 將 GrLivArea 限制在 800 到 2500 以內, 調整離群值
df['GrLivArea'] = df['GrLivArea'].clip(800, 2500)
sns.regplot(x = df['GrLivArea'], y=train_Y)
plt.show()
# 將 GrLivArea 限制在 800 到 2500 以內, 捨棄離群值
keep_indexs = (df['GrLivArea']> 800) & (df['GrLivArea']< 2500)
df = df[keep_indexs]
train_Y = train_Y[keep_indexs]
sns.regplot(x = df['GrLivArea'], y=train_Y)
plt.show()
回答列表
-
2019/05/10 下午 05:02張維元 (WeiYuan)贊同數:0不贊同數:0留言數:1
這題是設定 GrLivArea 的正常值會在 800 到 2500 以內,其他當成是離群值。因此,將 GrLivArea 限制在 800 到 2500 以內,用 df select 方式留下,其他捨棄。