Sql 如何在pyspark中将多个文本文件读入数据帧_Sql_Dataframe_Pyspark_Rdd_Databricks

Sql 如何在pyspark中将多个文本文件读入数据帧

sql dataframe pyspark

Sql 如何在pyspark中将多个文本文件读入数据帧,sql,dataframe,pyspark,rdd,databricks,Sql,Dataframe,Pyspark,Rdd,Databricks,我在一个目录中有几个包含json数据的txt文件（我只有路径，没有文件名），我需要将它们全部读入一个数据框 df=spark.read.json("<directorty_path>/*") df.show() 我试过这个： df=sc.wholeTextFiles("path/*") 但是我甚至不能显示数据，我的主要目标是以不同的方式对数据进行查询。而不是整个文本文件（提供键、值对，键作为文件名，数据作为值）尝试使用read.json并指定目录名spark将把目录中的所有文件

我在一个目录中有几个包含json数据的txt文件（我只有路径，没有文件名），我需要将它们全部读入一个数据框

df=spark.read.json("<directorty_path>/*")
df.show()

我试过这个：

df=sc.wholeTextFiles("path/*")

但是我甚至不能显示数据，我的主要目标是以不同的方式对数据进行查询。

而不是整个文本文件
（提供键、值对，键作为文件名，数据作为值）

尝试使用read.json
并指定目录名spark将把目录中的所有文件读取到数据帧中

df=spark.read.json("<directorty_path>/*")
df.show()

从本地文件系统HDFS读取文本文件目录（在所有节点上都可用）或任何支持Hadoop的文件系统URI。每个文件作为单个记录读取，并以键值对的形式返回，其中键是每个文件的路径，值是每个文件

注意：小文件是首选，因为每个文件都将完全加载到记忆