Python 使用spark从hdfs读取文件_Python_Pyspark_Hdfs

Python 使用spark从hdfs读取文件

python pyspark

Python 使用spark从hdfs读取文件,python,pyspark,hdfs,Python,Pyspark,Hdfs,下面是从本地驱动器读取文件的代码，但我希望它从hdfs上的文件夹读取文件。我想使用sc.textfile方法，但是我有点无法正确初始化它。你能帮忙吗 session = SparkSession.builder.appName('myapp') session = session.master ('local').getOrCreate() sql_context = SQLContext(session.SparkContext) sql_context.sql("SET spark.sql.

下面是从本地驱动器读取文件的代码，但我希望它从hdfs上的文件夹读取文件。我想使用sc.textfile方法，但是我有点无法正确初始化它。你能帮忙吗

session = SparkSession.builder.appName('myapp')
session = session.master ('local').getOrCreate()
sql_context = SQLContext(session.SparkContext)
sql_context.sql("SET spark.sql.autoBroadcastJoinThreshold=-1")
cwd=os.getcwd()

names=session.read.csv(os.path.join (cwd, 'local/path/to/file'),    header=True, inferSchema=True).repartition(nameid)
classes=session.read.csv(os.path.join (cwd, 'local/path/to/file'),    header=True, inferSchema=True).repartition(classid)

您为什么不继续使用session/spark

df_load = sparkSession.read.csv('hdfs://cluster/user/hdfs/test/*.csv')

如果我这样做，那么我是否要替换我的代码名=session.read.csvos.path.join cwd，“local/path/to/file”，header=True，inferSchema为anything是的，您可以调整并执行不同目录的正则表达式模式匹配。我使用spark，但你有会话变量，酷。这有帮助吗？