关于python:使用pandas加载大型CSV文件

Loading big CSV file with pandas

我正在尝试将csv文件(大约250 MB)加载为带有pandas的数据帧。 在我的第一次尝试中,我使用了典型的read_csv命令,但是我收到了错误内存。
我已尝试使用块的pandas中大型持久性DataFrame中提到的方法:

1
2
x=pd.read_csv('myfile.csv', iterator=True, chunksize=1000)
xx=pd.concat([chunk for chunk in x], ignore_index=True)

但是当我尝试连接时,我收到了以下错误:异常:"所有传递的对象都是None"。 实际上我无法访问这些块

我使用winpy 3.3.2.1获得32位,pandas为0.11.0


我建议您安装64位版本的winpython。 然后你应该能够毫无问题地加载250 MB的文件。


我迟到了,但是发布代码的实际问题是使用pd.concat([chunk for chunk in x])有效地取消了分块的任何好处,因为它将所有这些块连接成一个大的DataFrame。
这甚至可能需要暂时占用两倍的内存。