關於使用df.dtypes進行資料整理的問題
2020/04/13 下午 02:10
機器學習共學討論版
Gaprs
觀看數:7
回答數:1
收藏數:1
dtypes
資料清理
ML100
["https://www.cupoy.com/qa/club/ai_tw/0000016D6BA22D97000000016375706F795F72656C656173654B5741535354434C5542/000001715E5B8A7B0000026E6375706F795F72656C656173655155455354"] 想借著這個討論串確認一個問題… 當我們在用df.dtypes時, 在這段程式碼是針對df每個欄位判斷欄位資料的type, 實際試過,假如欄位中有一個資料為object,df.dtypes就判定這欄為object。 例如一個dataframe如下: A B C 20 XX YY 21 88 YY 23 99 YY 則上述的df.dtypes結果為 A int64 B object C object 我想問的問題是 假如我們沒辦法100%確認資料集是乾淨的,有多種type摻在同一欄的話,我們是不是只用df.dtypes進行資料清理的話,將會是有瑕疵的?
回答列表
-
2020/04/13 下午 11:00張維元 (WeiYuan)贊同數:1不贊同數:0留言數:2
嗨,Gaprs
你的理解是對的哦,df.dtypes 只是 pandas 在讀檔案的時候的判斷,但真實的資料還是要使用這幾定義才會比較準。舉個例子,就算你的檔案用 Excel 打開,也有可以能會發生格式判讀錯誤的。
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃