Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/cmake/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何创建到远程Spark服务器的连接并从本地计算机上运行的ipython读取数据?_Apache Spark_Ipython_Hdfs_Ipython Notebook - Fatal编程技术网

Apache spark 如何创建到远程Spark服务器的连接并从本地计算机上运行的ipython读取数据?

Apache spark 如何创建到远程Spark服务器的连接并从本地计算机上运行的ipython读取数据?,apache-spark,ipython,hdfs,ipython-notebook,Apache Spark,Ipython,Hdfs,Ipython Notebook,我正在本地计算机上运行ipython notebook,希望创建到远程Spark服务器I.p.的连接,然后从远程服务器上的hdfs文件夹读入数据。如何从本地ipython笔记本电脑创建与Spark服务器的远程连接?笔记本电脑必须从您的本地计算机运行有什么特殊原因吗?如果不是,那就简单多了 在运行spark的远程机器上安装jupyter/ipython remote$pip安装“jupyter[all]” 修改spark-env.sh并添加两行 导出PYSPARK_PYTHON=/usr/bin/

我正在本地计算机上运行
ipython notebook
,希望创建到远程
Spark
服务器I.p.的连接,然后从
远程服务器上的
hdfs
文件夹读入数据。如何从本地
ipython笔记本电脑
创建与Spark服务器的远程连接?

笔记本电脑必须从您的本地计算机运行有什么特殊原因吗?如果不是,那就简单多了

  • 在运行spark的远程机器上安装jupyter/ipython
    remote$pip安装“jupyter[all]”

  • 修改spark-env.sh并添加两行
    导出PYSPARK_PYTHON=/usr/bin/python2.7#您的位置可能会有所不同

  • export PYSPARK\u DRIVER\u PYTHON=/usr/local/bin/ipython

  • 启动pyspark
    PYSPARK\u DRIVER\u PYTHON\u OPTS=“笔记本--无浏览器--端口=7777”PYSPARK

  • 在本地计算机上,设置ssh隧道
    ssh-i私钥-N-f-L localhost:7776:localhost:7777ubuntu@remote.com

  • 在本地浏览器上,访问

  • 您可能希望在屏幕/tmux后运行#3,以便在更长的时间内保持它

    一些有用的页面:
    [1].
    [2].

    你可以试试

    SparkMagic是一个可以在Jupyter笔记本中运行的客户端。当我们在本地Jupyter客户端上编写Spark代码时,SparkMagic运行Spark作业 通过利维


    使用SparkMagic+Jupyter笔记本,我们可以使用本地Jupyter笔记本上运行的Spark,然后使用它连接到远程Spark群集

    我不能在服务器上安装任何东西,因为我不是管理员。