Hadoop 将Spark配置为在windows 7中本地运行_Hadoop_Apache Spark_Ipython

Hadoop 将Spark配置为在windows 7中本地运行

hadoop apache-spark ipython

Hadoop 将Spark配置为在windows 7中本地运行,hadoop,apache-spark,ipython,Hadoop,Apache Spark,Ipython,我正试图在我的台式计算机上使用Spark，它运行windows 7（本地，不是从集群或其他任何地方，以便进行一些实践），通过iPython笔记本中的pySpark，我发现了一个名为“findspark”（可在pip上获得）的软件包，可以用来避免进行Spark的设置基本上，我只是从官方网站下载了一个为hadoop预构建的spark版本，解压缩文件，然后在python中运行类似的程序： import findspark findspark.init(‘spark_directory’) impor

我正试图在我的台式计算机上使用Spark，它运行windows 7（本地，不是从集群或其他任何地方，以便进行一些实践），通过iPython笔记本中的pySpark，我发现了一个名为“findspark”（可在pip上获得）的软件包，可以用来避免进行Spark的设置

基本上，我只是从官方网站下载了一个为hadoop预构建的spark版本，解压缩文件，然后在python中运行类似的程序：

import findspark
findspark.init(‘spark_directory’)
import pyspark
sc = pyspark.SparkContext()

我得到了一个完全工作的spark上下文，它可以正常工作，无需设置任何内容。但是，它运行得非常慢，以至于如果我运行类似以下的东西：

print(sc.parallelize([1]).collect())

产生结果需要一秒钟的时间，如果我尝试更昂贵的计算，速度也相当慢，RAM内存使用有限（即，即使计算需要，也不会超过某一点）-出于比较目的，我还从一个已经安装好的linux虚拟机上运行了它，我在MOOC中下载了该虚拟机，所有操作都运行得更快

我想知道我可以做什么，或者我可以配置什么来加速它。我的目标是在我的本地机器上有一个spark的功能实例，在ipython笔记本上使用pyspark进行练习。

你看了吗？谢谢你的链接，但它涉及如何在Eclipse中运行pyspark（据我所知，它必须设置一个指向spark目录的环境变量）。我想问的更多的是我可以调整/配置/设置什么，以便它不会运行缓慢，也不会有内存使用限制。