畫直方圖相關問題
關於畫直方圖的問題,因為我不太熟如何繪圖
自己上網查是加入bins參數如下圖,只是看起來好像跟範例的答案不太一樣?
一方面我想是因為範例的解答是過濾掉最大值的部分(範例如下圖,看起來像是過濾掉占比1%的部分?)
能夠再更詳細介紹一下這個部分嗎?
關於Day8的範例
app_train.loc[app_train["AMT_INCOME_TOTAL"]<app_train["AMT_INCOME_TOTAL"].quantile(0.99)]["AMT_INCOME_TOTAL"].hist()
在這段的意思是針對app_train的"AMT_INCOME_TOTAL"欄位下的數值在大小中過濾掉最大的1%再用這些數據繪製出直方圖嗎?
==============
Day7_HW
對於object來說,取平均值跟最大值是不是無意義的事?
一開始我以為這題是要去查找每個object重複的次數然後再去求這些重複的Object平均出現幾次跟最多出現的次數...因為我以為這樣子查找的特徵相對來說會比較具有意義一點?
回答列表
-
2020/03/15 下午 10:07yicchen贊同數:1不贊同數:0留言數:3
1.關於Day8的範例問題 > 沒錯
底下有寫到我們從
app_train
[
'AMT_INCOME_TOTAL'
].
describe
()
看該欄位的最大值和 75% 百分位數的值有異常大的差距,所以直接畫直方圖會看不出所以然;所以濾掉最前面的1%資料。另外,matplotlib.pyplot 當中.hist() 參數bins指直方圖的柱數 默認是10。
2.對於object來說,取平均值跟最大值是不是無意義的事? > 是,不同資料型態要用不同的分析方式
題目應該是要讓我們嘗試,這裡可以看出對於類別特徵取相異值是其中一種有幫助的訊息。
以上是我目前理解的,如果有誤請多多指教。
-
2020/03/17 上午 01:31張維元 (WeiYuan)贊同數:1不贊同數:0留言數:1
「關於Day8的範例
app_train.loc[app_train["AMT_INCOME_TOTAL"]<app_train["AMT_INCOME_TOTAL"].quantile(0.99)]["AMT_INCOME_TOTAL"].hist()
在這段的意思是針對app_train的"AMT_INCOME_TOTAL"欄位下的數值在大小中過濾掉最大的1%再用這些數據繪製出直方圖嗎?」」
=> 對的,因為原本會有一些很大的值,導致圖畫不出來
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃
-
2020/03/17 上午 01:31張維元 (WeiYuan)贊同數:1不贊同數:0留言數:3
「Day7_HW
對於object來說,取平均值跟最大值是不是無意義的事?
一開始我以為這題是要去查找每個object重複的次數然後再去求這些重複的Object平均出現幾次跟最多出現的次數...因為我以為這樣子查找的特徵相對來說會比較具有意義一點?」
=> 這邊偷偷講一個小秘訣:「數值資料看範圍、類別資料看分佈」
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃