Python中的并行处理选项_Python_Amazon Web Services_Parallel Processing

Python中的并行处理选项

python amazon-web-services parallel-processing

Python中的并行处理选项,python,amazon-web-services,parallel-processing,Python,Amazon Web Services,Parallel Processing,我最近创建了一个python脚本，它执行了一些自然语言处理任务，在解决我的问题时效果非常好。但是花了9个小时。我首先研究了使用hadoop将问题分解为多个步骤，并希望利用使用AmazonWeb服务获得的可伸缩并行处理但我的一位朋友指出，Hadoop实际上是用于在磁盘上存储大量数据的，您需要执行许多简单的操作。在我的情况下，我有一个相对较小的初始数据集（低100s的Mbs），在这个数据集上我执行许多复杂的操作，在这个过程中占用了大量内存，并且花费了很多时间我可以在脚本中使用什么框架来利用AWS

我最近创建了一个python脚本，它执行了一些自然语言处理任务，在解决我的问题时效果非常好。但是花了9个小时。我首先研究了使用hadoop将问题分解为多个步骤，并希望利用使用AmazonWeb服务获得的可伸缩并行处理

但我的一位朋友指出，Hadoop实际上是用于在磁盘上存储大量数据的，您需要执行许多简单的操作。在我的情况下，我有一个相对较小的初始数据集（低100s的Mbs），在这个数据集上我执行许多复杂的操作，在这个过程中占用了大量内存，并且花费了很多时间

我可以在脚本中使用什么框架来利用AWS（或类似服务）上的可伸缩集群？

是在集群中的多台机器上分发内容的一个选项。

展示了如何执行类似MapReduce的脚本，在一台机器上使用进程。第二，如果可以，尝试缓存中间结果。我这样做是为了一个NLP任务，并获得了显著的速度。

展示了如何在一台机器上使用进程来执行类似MapReduce的脚本。第二，如果可以，尝试缓存中间结果。我这样做是为了一个NLP任务，并获得了显著的加速。

我的软件包可能非常适合您的需要。如果没有更多的信息，我真的说不出代码是什么样子的，但我设计它是为了解决亚hadoop大小的问题。

我的软件包可能非常适合您的需要。如果没有更多的信息，我真的说不出代码会是什么样子，但我设计它是为了解决亚hadoop大小的问题。

我快速阅读了一下，jug更像芹菜还是hadoop？水壶解决了什么问题而他们没有？更像芹菜，但它有一种不同的味道。它的开销比Hadoop要小（但它不能很好地扩展）。我快速阅读了一下——jug更像芹菜还是Hadoop？水壶解决了什么问题而他们没有？更像芹菜，但它有一种不同的味道。它的开销比Hadoop小（但不能扩展）。