Loading...

為什麼要先分群再做標準化? - Cupoy

有點不太理解下面這段 code 是什麼意思。grouped_df = app_train.group...

ml100,ml100-d13

為什麼要先分群再做標準化?

2020/06/04 下午 11:22

機器學習共學討論版

Yang Wang

觀看數：18

回答數：2

收藏數：1

ml100

ml100-d13

有點不太理解下面這段 code 是什麼意思。

grouped_df = app_train.groupby(grp)['AMT_INCOME_TOTAL']

app_train['AMT_INCOME_TOTAL_Z_BY_CHILDREN_GRP-TARGET'] = grouped_df.apply(lambda x: (x-np.mean(x))/np.std(x))

把原本的 app_train 以 AMT_INCOME_TOTAL 做分組之後然後標準化的用意在哪裡？

回答列表

2020/06/05 上午 00:21

張維元 (WeiYuan)

贊同數：1

不贊同數：0

留言數：1

嗨嗨，這邊想要做的是針對不同的資料做標準化，例如假如我有一個欄位是性別，一個欄位是身高。我們可以不分性別直接用身高的資料來做正規化，也可以將資料先分成男女個別正規化。

如果這個回答對你有幫助請主動點選「有幫助」的按鈕，也可以追蹤我的GITHUB帳號。若還有問題的話，也歡迎繼續再追問或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃
2020/06/06 上午 00:16

張維元 (WeiYuan)

贊同數：2

不贊同數：0

留言數：2

「直接對身高做標準化和將資料先分成男女個別做標準化有甚麼差別嗎？」

=> 資料代表的意義略有不同嗎？

* 「直接對身高做標準化」=> 以所有人的身高來說，大概在什麼位置？

* 「分成男女個別做標準化」=> 以相通性別的身高來說，大概在什麼位置？

可能就會應用在該欄位跟性別有強烈關係，但又不想被這個關係所影響的情況下。不過這件事情很難事前知道好不好，通常是從結果反推。

如果這個回答對你有幫助請主動點選「有幫助」的按鈕，也可以追蹤我的GITHUB帳號。若還有問題的話，也歡迎繼續再追問或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃