Python 2.7 PYSpark Jupyter-由于内核空间问题,无法运行特定任务

Python 2.7 PYSpark Jupyter-由于内核空间问题,无法运行特定任务,python-2.7,pyspark,jupyter,Python 2.7,Pyspark,Jupyter,嗨,我是一个初学者,希望做一个项目,展示pyspark运行分类模型的能力。我按照媒体网站上的Michael Galarnyk帖子使用了说明,其中展示了如何从windows命令提示符启动JUPYTER笔记本,打开内核并创建SparkContext。然后,我在第二节学习了教程。我能够运行第一个笔记本和第二个笔记本的大部分(nb2 rdd基础)。但是,当我尝试运行下面的单元格时,会收到一条错误消息 t0 = time() head_rows = csv_data.take(100000) tt = t

嗨,我是一个初学者,希望做一个项目,展示pyspark运行分类模型的能力。我按照媒体网站上的Michael Galarnyk帖子使用了说明,其中展示了如何从windows命令提示符启动JUPYTER笔记本,打开内核并创建SparkContext。然后,我在第二节学习了教程。我能够运行第一个笔记本和第二个笔记本的大部分(nb2 rdd基础)。但是,当我尝试运行下面的单元格时,会收到一条错误消息

t0 = time()
head_rows = csv_data.take(100000)
tt = time() - t0
print "Parse completed in {} seconds".format(round(tt,3))
如果我将参数更改为低于100000(例如1000)的数字,它会工作,有时它会工作100000。我不理解Juptyer中的错误消息,但在命令提示符下,我得到的信息使我相信这是一条错误消息

我上网试图找到一个解决方案,我所能找到的是,不用在命令提示符下键入pyspark来启动Jupyter,我应该键入类似pyspark的东西——驱动程序内存10g——执行器内存10g。任何帮助都将不胜感激。请参见下面的“从命令提示符提取”

io.netty.util.internal.OutOfDirectMemoryError: failed to allocate 65536 
byte(s) of direct memory (used: 67059712, max: 67108864)
原因:io.netty.util.internal.OutOfDirectMemoryError:未能分配655 36字节的直接内存(使用:67052544,最大:67108864)


我还尝试粘贴命令提示符响应的全部内容,但无法找出如何避免stackoverflow将其误解为代码,因此无法发布问题

各位,我想我可以结束这个问题,因为我知道如何在Jupyter中添加额外内存。在命令行输入pyspark打开Jupyter笔记本后,我进入笔记本的第一个单元格

sc = SparkContext(conf=SparkConf().set('spark.driver.memory', '10g')).getOrCreate()
但是,这并不能解决问题,因为当我在jupyter中运行下面的

t0 = time()
head_rows = csv_data.take(100000)
tt = time() - t0
print "Parse completed in {} seconds".format(round(tt,3))
我仍然收到错误消息(在windows命令提示符下)

被任命为添加10g不会有帮助。不过,由于这是一个单独的问题,我将提出另一个问题