Hadoop 将Spark配置为在windows 7中本地运行

Hadoop 将Spark配置为在windows 7中本地运行,hadoop,apache-spark,ipython,Hadoop,Apache Spark,Ipython,我正试图在我的台式计算机上使用Spark,它运行windows 7(本地,不是从集群或其他任何地方,以便进行一些实践),通过iPython笔记本中的pySpark,我发现了一个名为“findspark”(可在pip上获得)的软件包,可以用来避免进行Spark的设置 基本上,我只是从官方网站下载了一个为hadoop预构建的spark版本,解压缩文件,然后在python中运行类似的程序: import findspark findspark.init(‘spark_directory’) impor

我正试图在我的台式计算机上使用Spark,它运行windows 7(本地,不是从集群或其他任何地方,以便进行一些实践),通过iPython笔记本中的pySpark,我发现了一个名为“findspark”(可在pip上获得)的软件包,可以用来避免进行Spark的设置

基本上,我只是从官方网站下载了一个为hadoop预构建的spark版本,解压缩文件,然后在python中运行类似的程序:

import findspark
findspark.init(‘spark_directory’)
import pyspark
sc = pyspark.SparkContext()
我得到了一个完全工作的spark上下文,它可以正常工作,无需设置任何内容。但是,它运行得非常慢,以至于如果我运行类似以下的东西:

print(sc.parallelize([1]).collect())
产生结果需要一秒钟的时间,如果我尝试更昂贵的计算,速度也相当慢,RAM内存使用有限(即,即使计算需要,也不会超过某一点)-出于比较目的,我还从一个已经安装好的linux虚拟机上运行了它,我在MOOC中下载了该虚拟机,所有操作都运行得更快


我想知道我可以做什么,或者我可以配置什么来加速它。我的目标是在我的本地机器上有一个spark的功能实例,在ipython笔记本上使用pyspark进行练习。

你看了吗?谢谢你的链接,但它涉及如何在Eclipse中运行pyspark(据我所知,它必须设置一个指向spark目录的环境变量)。我想问的更多的是我可以调整/配置/设置什么,以便它不会运行缓慢,也不会有内存使用限制。