logo
Loading...

畫直方圖相關問題 - Cupoy

關於畫直方圖的問題,因為我不太熟如何繪圖自己上網查是加入bins參數如下圖,只是看起來好像跟範例的答...

畫直方圖相關問題

2020/03/14 下午 05:26
機器學習共學討論版
Gaprs
觀看數:7
回答數:3
收藏數:0

關於畫直方圖的問題,因為我不太熟如何繪圖

自己上網查是加入bins參數如下圖,只是看起來好像跟範例的答案不太一樣?

一方面我想是因為範例的解答是過濾掉最大值的部分(範例如下圖,看起來像是過濾掉占比1%的部分?)

能夠再更詳細介紹一下這個部分嗎?


關於Day8的範例

app_train.loc[app_train["AMT_INCOME_TOTAL"]<app_train["AMT_INCOME_TOTAL"].quantile(0.99)]["AMT_INCOME_TOTAL"].hist()

在這段的意思是針對app_train的"AMT_INCOME_TOTAL"欄位下的數值在大小中過濾掉最大的1%再用這些數據繪製出直方圖嗎?

==============

Day7_HW

對於object來說,取平均值跟最大值是不是無意義的事?

一開始我以為這題是要去查找每個object重複的次數然後再去求這些重複的Object平均出現幾次跟最多出現的次數...因為我以為這樣子查找的特徵相對來說會比較具有意義一點?


回答列表

  • 2020/03/15 下午 10:07
    yicchen
    贊同數:1
    不贊同數:0
    留言數:3

    1.關於Day8的範例問題 > 沒錯

    底下有寫到我們從app_train['AMT_INCOME_TOTAL'].describe()該欄位的最大值和 75% 百分位數的值有異常大的差距,所以直接畫直方圖會看不出所以然;所以濾掉最前面的1%資料。

    另外,matplotlib.pyplot 當中.hist() 參數bins指直方圖的柱數 默認是10。


    2.對於object來說,取平均值跟最大值是不是無意義的事? > 是,不同資料型態要用不同的分析方式

    題目應該是要讓我們嘗試,這裡可以看出對於類別特徵取相異值是其中一種有幫助的訊息。


    以上是我目前理解的,如果有誤請多多指教。

  • 2020/03/17 上午 01:31
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:1

    「關於Day8的範例

    app_train.loc[app_train["AMT_INCOME_TOTAL"]<app_train["AMT_INCOME_TOTAL"].quantile(0.99)]["AMT_INCOME_TOTAL"].hist()

    在這段的意思是針對app_train的"AMT_INCOME_TOTAL"欄位下的數值在大小中過濾掉最大的1%再用這些數據繪製出直方圖嗎?」」


    => 對的,因為原本會有一些很大的值,導致圖畫不出來


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃

  • 2020/03/17 上午 01:31
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:3

    「Day7_HW

    對於object來說,取平均值跟最大值是不是無意義的事?

    一開始我以為這題是要去查找每個object重複的次數然後再去求這些重複的Object平均出現幾次跟最多出現的次數...因為我以為這樣子查找的特徵相對來說會比較具有意義一點?」


    => 這邊偷偷講一個小秘訣:「數值資料看範圍、類別資料看分佈


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃