在較大檔案中,如何取出部分欄位進行分析
2019/04/24 下午 04:03
機器學習共學討論版
蔡宏為
觀看數:27
回答數:1
收藏數:0
ml100
skiprows
資料分割
[課外問題]
各位好
我這次選用的資料是自己參加大數據競賽的資料
但是因為硬體規格的關係而且單一檔案均非常大
導致檔案無法全開
想請問有沒有方式
例如檔案分割 或是僅萃取自己需要的部分欄位呢?
這樣才可以進行後續的資料分析跟處理
謝謝
回答列表
-
2019/04/24 下午 04:50張維元 (WeiYuan)贊同數:2不贊同數:0留言數:0
嗨,pandas 的 read_csv 有一個參數是「skiprows」,可以跳過某些列不要讀取,可以搭配 lambda + % 來使用:
```
n = 100 # every 100th line = 1% of the lines
df = pd.read_csv(filename, header=0, skiprows=lambda i: i % n != 0)
```