logo
Loading...

在較大檔案中,如何取出部分欄位進行分析 - Cupoy

[課外問題]各位好我這次選用的資料是自己參加大數據競賽的資料但是因為硬體規格的關係而且單一檔案均非常...

ml100,skiprows,資料分割

在較大檔案中,如何取出部分欄位進行分析

2019/04/24 下午 04:03
機器學習共學討論版
蔡宏為
觀看數:27
回答數:1
收藏數:0
ml100
skiprows
資料分割

[課外問題]

各位好

我這次選用的資料是自己參加大數據競賽的資料

但是因為硬體規格的關係而且單一檔案均非常大

導致檔案無法全開

想請問有沒有方式

例如檔案分割 或是僅萃取自己需要的部分欄位呢?

這樣才可以進行後續的資料分析跟處理

謝謝

回答列表

  • 2019/04/24 下午 04:50
    張維元 (WeiYuan)
    贊同數:2
    不贊同數:0
    留言數:0

    嗨,pandas 的 read_csv 有一個參數是「skiprows」,可以跳過某些列不要讀取,可以搭配 lambda + % 來使用: 


    ``` 

    n = 100 # every 100th line = 1% of the lines 

    df = pd.read_csv(filename, header=0, skiprows=lambda i: i % n != 0) 

    ```