Python 2.7 PYSpark Jupyter-由于内核空间问题，无法运行特定任务_Python 2.7_Pyspark_Jupyter

Python 2.7 PYSpark Jupyter-由于内核空间问题，无法运行特定任务

python-2.7 pyspark

Python 2.7 PYSpark Jupyter-由于内核空间问题，无法运行特定任务,python-2.7,pyspark,jupyter,Python 2.7,Pyspark,Jupyter,嗨，我是一个初学者，希望做一个项目，展示pyspark运行分类模型的能力。我按照媒体网站上的Michael Galarnyk帖子使用了说明，其中展示了如何从windows命令提示符启动JUPYTER笔记本，打开内核并创建SparkContext。然后，我在第二节学习了教程。我能够运行第一个笔记本和第二个笔记本的大部分（nb2 rdd基础）。但是，当我尝试运行下面的单元格时，会收到一条错误消息 t0 = time() head_rows = csv_data.take(100000) tt = t

嗨，我是一个初学者，希望做一个项目，展示pyspark运行分类模型的能力。我按照媒体网站上的Michael Galarnyk帖子使用了说明，其中展示了如何从windows命令提示符启动JUPYTER笔记本，打开内核并创建SparkContext。然后，我在第二节学习了教程。我能够运行第一个笔记本和第二个笔记本的大部分（nb2 rdd基础）。但是，当我尝试运行下面的单元格时，会收到一条错误消息

t0 = time()
head_rows = csv_data.take(100000)
tt = time() - t0
print "Parse completed in {} seconds".format(round(tt,3))

如果我将参数更改为低于100000（例如1000）的数字，它会工作，有时它会工作100000。我不理解Juptyer中的错误消息，但在命令提示符下，我得到的信息使我相信这是一条错误消息

我上网试图找到一个解决方案，我所能找到的是，不用在命令提示符下键入pyspark来启动Jupyter，我应该键入类似pyspark的东西——驱动程序内存10g——执行器内存10g。任何帮助都将不胜感激。请参见下面的“从命令提示符提取”

io.netty.util.internal.OutOfDirectMemoryError: failed to allocate 65536 
byte(s) of direct memory (used: 67059712, max: 67108864)

原因：io.netty.util.internal.OutOfDirectMemoryError:未能分配655 36字节的直接内存（使用：67052544，最大：67108864）

我还尝试粘贴命令提示符响应的全部内容，但无法找出如何避免stackoverflow将其误解为代码，因此无法发布问题

各位，我想我可以结束这个问题，因为我知道如何在Jupyter中添加额外内存。在命令行输入pyspark打开Jupyter笔记本后，我进入笔记本的第一个单元格

sc = SparkContext(conf=SparkConf().set('spark.driver.memory', '10g')).getOrCreate()

但是，这并不能解决问题，因为当我在jupyter中运行下面的

t0 = time()
head_rows = csv_data.take(100000)
tt = time() - t0
print "Parse completed in {} seconds".format(round(tt,3))

我仍然收到错误消息（在windows命令提示符下）

被任命为添加10g不会有帮助。不过，由于这是一个单独的问题，我将提出另一个问题