Python 用Cython和Pandas读取TXT文件

Python 用Cython和Pandas读取TXT文件,python,pandas,cython,cythonize,Python,Pandas,Cython,Cythonize,我有一个接近4GB的海量数据集(文本文件),希望使用熊猫数据帧处理该数据集。我可以读入文件,但读入所有数据需要几分钟 因此,我想利用C使用Cython库的速度 我很难找到如何使用Cython将文本文件读入pandas数据帧 任何指导都会很有帮助。阅读一次,并将其存储为其他文件格式,具有更快的I/O速度(例如HDF、pickle)。您很可能会看到10-20倍的改进 官方文档中对每种文件格式的I/O速度和磁盘空间进行了粗略比较:读取4GB文件的几分钟时间在我看来相当合理。pandas reader已

我有一个接近4GB的海量数据集(文本文件),希望使用熊猫数据帧处理该数据集。我可以读入文件,但读入所有数据需要几分钟

因此,我想利用C使用Cython库的速度

我很难找到如何使用Cython将文本文件读入pandas数据帧


任何指导都会很有帮助。

阅读一次,并将其存储为其他文件格式,具有更快的I/O速度(例如HDF、pickle)。您很可能会看到10-20倍的改进


官方文档中对每种文件格式的I/O速度和磁盘空间进行了粗略比较:

读取4GB文件的几分钟时间在我看来相当合理。pandas reader已经编译完成,速度相对较快。我认为写自己的东西是不值得的。Cython或Python在这里并不重要,因为这一过程很可能受到I/O的限制。切换到类似Spark的并行读取,您将看到数量级的改进读取
读取csv
关于
引擎的内容:似乎是一个可靠的解释。谢谢