關於 dataframe.quantile()作用
Hi 各位老師、同學們您好:
想請問作業5解答中有以下這段描述與程式碼:
注意到該欄位的最大值和 75% 百分位數的值有異常大的差距,所以直接畫直方圖會看不出所以然來,可以先過濾掉再重新畫圖來看
app_train.loc[app_train['AMT_INCOME_TOTAL']<app_train['AMT_INCOME_TOTAL'].quantile(0.99)]['AMT_INCOME_TOTAL'].hist()
想請問程式碼中的app_train['AMT_INCOME_TOTAL'].quantile(0.99)]['AMT_INCOME_TOTAL']是有什麼樣的作用?或是有什麼建議的網站可以讓我找到更深入的說明?謝謝
回答列表
-
2019/05/20 下午 07:02Seanyu.TW贊同數:0不贊同數:0留言數:0
Hi,
quantile 這個功能,在絕大多數的統計軟體或是程式語言與統計相關的套件中,大多是去計算分位數, 所以如程式碼中,它要算的就是 AMT_INCOME_TOTAL 的第 99 分位數是多少。
至於分位數的意義,可以參考 https://mathseasy.hk/articles/quartile/
-
2019/05/21 上午 10:13張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
可以看一下整段程式碼:
```
app_train.loc[app_train['AMT_INCOME_TOTAL'] > app_train['AMT_INCOME_TOTAL'].quantile(0.99)]['AMT_INCOME_TOTAL']
```
通常中最裡面開啟看:
* app_train.loc[app_train['AMT_INCOME_TOTAL'] > app_train['AMT_INCOME_TOTAL'].quantile(0.99)]['AMT_INCOME_TOTAL'] => AMT_INCOME_TOTAL 欄位的 99 分位數
* app_train.loc[app_train['AMT_INCOME_TOTAL'] > app_train['AMT_INCOME_TOTAL'].quantile(0.99)]['AMT_INCOME_TOTAL'] => AMT_INCOME_TOTAL 欄位中 > 99 分位數 的布林結果
* app_train.loc[app_train['AMT_INCOME_TOTAL'] > app_train['AMT_INCOME_TOTAL'].quantile(0.99)]['AMT_INCOME_TOTAL'] => AMT_INCOME_TOTAL 欄位 > 99 分位數的整個 DataFrame
* app_train.loc[app_train['AMT_INCOME_TOTAL'] > app_train['AMT_INCOME_TOTAL'].quantile(0.99)]['AMT_INCOME_TOTAL'] => AMT_INCOME_TOTAL 欄位 > 99 分位數的整個 DataFrame 的 AMT_INCOME_TOTAL 欄位