在Python/Pandas中并行运行数据转换

在Python/Pandas中并行运行数据转换,python,csv,multiprocessing,Python,Csv,Multiprocessing,我有一个中等数据(90千兆)的金融数据转换,我需要预制。单行执行的代码在包含定价数据的csv文件上运行大约需要2天 我使用的当前工作流将一个大的5分钟价格数据csv加载到一个文件中,然后将其转换为30分钟并写入另一个csv。这不是一项大规模的cpu任务,我想知道我可以用什么最简单的方法将这个进程扩展到我的8个内核(16个线程)?如果你运行的是Python 3,那么这就是进行多处理的标准方法。如果你运行的是Python 2,请看一看。它可以在一台机器的所有核心上运行,也可以在一组机器上运行,包括A

我有一个中等数据(90千兆)的金融数据转换,我需要预制。单行执行的代码在包含定价数据的csv文件上运行大约需要2天


我使用的当前工作流将一个大的5分钟价格数据csv加载到一个文件中,然后将其转换为30分钟并写入另一个csv。这不是一项大规模的cpu任务,我想知道我可以用什么最简单的方法将这个进程扩展到我的8个内核(16个线程)?

如果你运行的是Python 3,那么这就是进行多处理的标准方法。如果你运行的是Python 2,请看一看。它可以在一台机器的所有核心上运行,也可以在一组机器上运行,包括AmazonEC2。Spark还支持Java和Scala的并行执行。我在我的博客上有一些关于Spark的介绍性说明。如果您运行的是Python3,那么这是执行多处理的标准方法。如果您运行的是Python2,请查看。它可以在一台机器的所有核心上运行,也可以在一组机器上运行,包括AmazonEC2。Spark还支持Java和Scala的并行执行。我在我的博客上有一些关于Spark的介绍性说明。如果您运行的是Python3,那么这是执行多处理的标准方法。如果您运行的是Python2,请查看。它可以在一台机器的所有核心上运行,也可以在一组机器上运行,包括AmazonEC2。Spark还支持Java和Scala的并行执行。我在我的博客上有一些关于Spark的介绍性说明。