如何在Glue ETL中启用pySpark?
我有一个非常简单的粘合ETL工作,代码如下:如何在Glue ETL中启用pySpark?,pyspark,aws-glue,Pyspark,Aws Glue,我有一个非常简单的粘合ETL工作,代码如下: from pyspark.context import SparkContext sc = SparkContext.getOrCreate() conf = sc.getConf() print(conf.toDebugString()) 创建作业时启用了红移连接。执行作业时,我得到: No module named pyspark.context 所有这些似乎都提到、指出并暗示了pyspark的可用性,但为什么我的环境抱怨它没有pyspa
from pyspark.context import SparkContext
sc = SparkContext.getOrCreate()
conf = sc.getConf()
print(conf.toDebugString())
创建作业时启用了红移连接。执行作业时,我得到:
No module named pyspark.context
所有这些似乎都提到、指出并暗示了pyspark的可用性,但为什么我的环境抱怨它没有pyspark?我错过了什么步骤
致以最良好的祝愿,
Lim我使用:
from pyspark.context import SparkContext
from awsglue.context import GlueContext
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
我使用:
Python外壳作业仅支持Python和库,如pandas、Scikit learn等。它们不支持PySpark,因此您应该创建一个作业类型为Spark且ETL language=Python的作业,以使其工作。Python外壳作业仅支持Python和库,如pandas、Scikit learn等。它们不支持PySpark,因此,您应该创建一个job type=Spark和ETL language=Python的粘合作业,以使其工作。Lim,您是否创建了job type=Spark和ETL language=Python的粘合作业?@AidaMartinez否,它是job type=Python(shell)Lim,您是否创建了job type=Spark和ETL language=Python的粘合作业?@AidaMartinez否,它是job type=Python(shell)