離群資料問題 - Cupoy

想請問為何這邊要對於target資料取mean百分比呢？( 前面在觀察DAYS_EMPLOYED的資...

離群資料問題

2020/05/06 下午 08:28

機器學習共學討論版

毛

觀看數：24

回答數：4

收藏數：1

想請問為何這邊要對於target資料取mean百分比呢？

( 前面在觀察DAYS_EMPLOYED的資料分布)

回答列表

2020/05/08 上午 09:57

CUPOY

贊同數：1

不贊同數：0

留言數：0

哈囉~親愛的學員您好

感謝您提出的問題，365243為異常值，這個部分歡迎參考以下寫法(連結)唷，祝福您學習愉快。

```

app_train[app_train['DAYS_EMPLOYED'] > 2000, 'DAYS_EMPLOYED'] = 2000

```
2020/05/08 下午 01:37

Gaprs

贊同數：1

不贊同數：0

留言數：1

就我最近學習的認知…(有錯麻煩請不吝指教>< 我們最重要的目的是為了清理/整理資料，使資料可以提升我們模型訓練後的預測準確度。根據上述目的，因此我們必須做的資料前處理基礎的方法就是補缺值、將object類型的特徵值encoding用以滿足我們所使用的演算法需求(回歸or分類)。完成上面基本的處理後，大多數情況下，我們的模型必然還不是一個好的模型，因此我們需要做的就是去研究如大海般的資料集，利用domain knowledge組合、刪除、調整feature，使雜亂的資料集變成對於演算法來說是有用的資料。講完上述之後回來看看為什麼要對於這個特徵值取mean呢？因為我們期望將缺值(可能是nan, 或一個正很大或負很大的一個不合理數字)，調整為一個我們認為的或是說依據我們對該領域的知識認為是合理的方式進行調整，期望根據這些資料訓練出來的模型能夠對將來未知的資料(data_test)依然能夠有好的表現。
2020/05/09 下午 08:38

張維元 (WeiYuan)

贊同數：1

不贊同數：0

留言數：0

嗨，毛

請問這次哪一天的範例呢？或是是從什麼資料集來的？XD

如果這個回答對你有幫助請主動點選「有幫助」的按鈕，也可以追蹤我的GITHUB帳號。若還有問題的話，也歡迎繼續再追問或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃
2020/05/09 下午 08:42

張維元 (WeiYuan)

贊同數：1

不贊同數：0

留言數：1

從你提供部分來看，應該是把資料分成兩種類型「anom」和「non_anom」。然後取這兩種資料的 Target 觀察有什麼差異，取平均只是一種觀察的手法，一般來說連續數值會取平均，離散數值會取眾數。

如果這個回答對你有幫助請主動點選「有幫助」的按鈕，也可以追蹤我的GITHUB帳號。若還有問題的話，也歡迎繼續再追問或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃