在Python/Pandas中并行运行数据转换_Python_Csv_Multiprocessing

在Python/Pandas中并行运行数据转换

python csv

在Python/Pandas中并行运行数据转换,python,csv,multiprocessing,Python,Csv,Multiprocessing,我有一个中等数据（90千兆）的金融数据转换，我需要预制。单行执行的代码在包含定价数据的csv文件上运行大约需要2天我使用的当前工作流将一个大的5分钟价格数据csv加载到一个文件中，然后将其转换为30分钟并写入另一个csv。这不是一项大规模的cpu任务，我想知道我可以用什么最简单的方法将这个进程扩展到我的8个内核（16个线程）？如果你运行的是Python 3，那么这就是进行多处理的标准方法。如果你运行的是Python 2，请看一看。它可以在一台机器的所有核心上运行，也可以在一组机器上运行，包括A

我有一个中等数据（90千兆）的金融数据转换，我需要预制。单行执行的代码在包含定价数据的csv文件上运行大约需要2天

我使用的当前工作流将一个大的5分钟价格数据csv加载到一个文件中，然后将其转换为30分钟并写入另一个csv。这不是一项大规模的cpu任务，我想知道我可以用什么最简单的方法将这个进程扩展到我的8个内核（16个线程）？

如果你运行的是Python 3，那么这就是进行多处理的标准方法。如果你运行的是Python 2，请看一看。它可以在一台机器的所有核心上运行，也可以在一组机器上运行，包括AmazonEC2。Spark还支持Java和Scala的并行执行。我在我的博客上有一些关于Spark的介绍性说明。如果您运行的是Python3，那么这是执行多处理的标准方法。如果您运行的是Python2，请查看。它可以在一台机器的所有核心上运行，也可以在一组机器上运行，包括AmazonEC2。Spark还支持Java和Scala的并行执行。我在我的博客上有一些关于Spark的介绍性说明。如果您运行的是Python3，那么这是执行多处理的标准方法。如果您运行的是Python2，请查看。它可以在一台机器的所有核心上运行，也可以在一组机器上运行，包括AmazonEC2。Spark还支持Java和Scala的并行执行。我在我的博客上有一些关于Spark的介绍性说明。