Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python中的并行处理选项_Python_Amazon Web Services_Parallel Processing - Fatal编程技术网

Python中的并行处理选项

Python中的并行处理选项,python,amazon-web-services,parallel-processing,Python,Amazon Web Services,Parallel Processing,我最近创建了一个python脚本,它执行了一些自然语言处理任务,在解决我的问题时效果非常好。但是花了9个小时。我首先研究了使用hadoop将问题分解为多个步骤,并希望利用使用AmazonWeb服务获得的可伸缩并行处理 但我的一位朋友指出,Hadoop实际上是用于在磁盘上存储大量数据的,您需要执行许多简单的操作。在我的情况下,我有一个相对较小的初始数据集(低100s的Mbs),在这个数据集上我执行许多复杂的操作,在这个过程中占用了大量内存,并且花费了很多时间 我可以在脚本中使用什么框架来利用AWS

我最近创建了一个python脚本,它执行了一些自然语言处理任务,在解决我的问题时效果非常好。但是花了9个小时。我首先研究了使用hadoop将问题分解为多个步骤,并希望利用使用AmazonWeb服务获得的可伸缩并行处理

但我的一位朋友指出,Hadoop实际上是用于在磁盘上存储大量数据的,您需要执行许多简单的操作。在我的情况下,我有一个相对较小的初始数据集(低100s的Mbs),在这个数据集上我执行许多复杂的操作,在这个过程中占用了大量内存,并且花费了很多时间


我可以在脚本中使用什么框架来利用AWS(或类似服务)上的可伸缩集群?

是在集群中的多台机器上分发内容的一个选项。

是在集群中的多台机器上分发内容的一个选项。

展示了如何执行类似MapReduce的脚本,在一台机器上使用进程。第二,如果可以,尝试缓存中间结果。我这样做是为了一个NLP任务,并获得了显著的速度。

展示了如何在一台机器上使用进程来执行类似MapReduce的脚本。第二,如果可以,尝试缓存中间结果。我这样做是为了一个NLP任务,并获得了显著的加速。

我的软件包可能非常适合您的需要。如果没有更多的信息,我真的说不出代码是什么样子的,但我设计它是为了解决亚hadoop大小的问题。

我的软件包可能非常适合您的需要。如果没有更多的信息,我真的说不出代码会是什么样子,但我设计它是为了解决亚hadoop大小的问题。

我快速阅读了一下,jug更像芹菜还是hadoop?水壶解决了什么问题而他们没有?更像芹菜,但它有一种不同的味道。它的开销比Hadoop要小(但它不能很好地扩展)。我快速阅读了一下——jug更像芹菜还是Hadoop?水壶解决了什么问题而他们没有?更像芹菜,但它有一种不同的味道。它的开销比Hadoop小(但不能扩展)。