使用seaborn畫長條圖的問題?
您好請問以下:
用seaborn的barplot會出的長條圖中,
1. Y軸的部分看起來像是各組的binary data TARGET 當中,“1”佔所有次數的比例,
但一般來說不是會畫出次數統計(Frequency)嗎,請問可以調整什麼部分來得到次數統計?
2. 其中在頂端都會有黑色實線的部分,各組的黑色實現長短也不一,那是像盒鬚圖那樣代表變異數大小的意思嗎或是他代表什麼意思呢?
3. 想請問使用等頻劃分的qcut函數,是否會有各組人數仍不一致的情形呢,那麼應該採用這樣的分組結果或該有什麼處理的應對方式呢?
謝謝
回答列表
-
2019/05/01 下午 04:46Seanyu.TW贊同數:0不贊同數:0留言數:1
1. 因為前面做過比例的處理,假如你想變成以數量呈現的話,在 y 的部分乘上總數即可。
plt.bar(range(len(age_groups.index)), age_groups['TARGET']*age_data["TARGET"].sum())
-
2019/05/01 下午 04:47Seanyu.TW贊同數:0不贊同數:0留言數:2
2. 黑色實線是 errorbar,假如你設定為 1 個標準差,則為 68% 信賴區間, 若為 1.96 個標準差,則為 95% 信賴區間。詳細可以參考 https://zh.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7%E5%8E%9F%E5%89%87
-
2019/05/01 下午 04:50Seanyu.TW贊同數:0不贊同數:0留言數:0
3. 若採用 quantile 做切分,則我們可以說 q10 ~ q20 的人數會約莫等於 q20 ~ q30 的人數。(通常可能不一定完全等於,這有時候看壓在線上的人到底有多少),如果希望是各組人數均等的話,做 qcut 確實是個不錯的選擇。 然而假如分組是有意義的 (比方說年紀) 那就另當別論。所以如何分組都看你想如何檢視、分析資料而定。