logo
Loading...

關於使用df.dtypes進行資料整理的問題 - Cupoy

["https://www.cupoy.com/qa/club/ai_tw/0000016...

dtypes,資料清理,ML100

關於使用df.dtypes進行資料整理的問題

2020/04/13 下午 02:10
機器學習共學討論版
Gaprs
觀看數:7
回答數:1
收藏數:1
dtypes
資料清理
ML100

["https://www.cupoy.com/qa/club/ai_tw/0000016D6BA22D97000000016375706F795F72656C656173654B5741535354434C5542/000001715E5B8A7B0000026E6375706F795F72656C656173655155455354"] 想借著這個討論串確認一個問題… 當我們在用df.dtypes時, 在這段程式碼是針對df每個欄位判斷欄位資料的type, 實際試過,假如欄位中有一個資料為object,df.dtypes就判定這欄為object。 例如一個dataframe如下: A B C 20 XX YY 21 88 YY 23 99 YY 則上述的df.dtypes結果為 A int64 B object C object 我想問的問題是 假如我們沒辦法100%確認資料集是乾淨的,有多種type摻在同一欄的話,我們是不是只用df.dtypes進行資料清理的話,將會是有瑕疵的?

回答列表

  • 2020/04/13 下午 11:00
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:2

    嗨,Gaprs


    你的理解是對的哦,df.dtypes 只是 pandas 在讀檔案的時候的判斷,但真實的資料還是要使用這幾定義才會比較準。舉個例子,就算你的檔案用 Excel 打開,也有可以能會發生格式判讀錯誤的。


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃