Google colaboratory 建立环境

Google colaboratory 建立环境,google-colaboratory,Google Colaboratory,在运行设置环境时,出于某种原因,我使用Google Colaboratory了解Pyspark。当我从一个笔记本移动到另一个笔记本时,会收到一条错误消息 错误消息: 索引器回溯(最近的调用) 最后) 在() 4. 5进口金融园 ---->6 findspark.init() 7从pyspark导入SparkContext 8 sc=SparkContext.getOrCreate() Google提供的用于设置env的代码 import os os.environ["JAVA_HOME"]

在运行设置环境时,出于某种原因,我使用Google Colaboratory了解Pyspark。当我从一个笔记本移动到另一个笔记本时,会收到一条错误消息

错误消息: 索引器回溯(最近的调用) 最后) 在() 4. 5进口金融园 ---->6 findspark.init() 7从pyspark导入SparkContext 8 sc=SparkContext.getOrCreate()

Google提供的用于设置env的代码

 import os
 os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
 os.environ["SPARK_HOME"] = "/content/spark-2.3.1-bin-hadoop2.7"

 import findspark
 findspark.init()
 from pyspark import SparkContext
 sc = SparkContext.getOrCreate()

import pyspark
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate() 
spark

在运行上面的代码段之前,您需要安装spark。这里有一个经过调整的配方,它适合我使用全新的Colab后端:

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q http://apache.osuosl.org/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz
!tar xf spark-2.3.2-bin-hadoop2.7.tgz
!pip install -q findspark

import os
import findspark
findspark.init('/content/spark-2.3.2-bin-hadoop2.7/')
from pyspark import SparkContext
sc = SparkContext.getOrCreate()

import pyspark
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate() 
spark

您在哪里找到引用的init代码?(我在Colab文档中没有看到。)
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q http://apache.osuosl.org/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz
!tar xf spark-2.3.2-bin-hadoop2.7.tgz
!pip install -q findspark

import os
import findspark
findspark.init('/content/spark-2.3.2-bin-hadoop2.7/')
from pyspark import SparkContext
sc = SparkContext.getOrCreate()

import pyspark
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate() 
spark