Sql 如何在pyspark中将多个文本文件读入数据帧

Sql 如何在pyspark中将多个文本文件读入数据帧,sql,dataframe,pyspark,rdd,databricks,Sql,Dataframe,Pyspark,Rdd,Databricks,我在一个目录中有几个包含json数据的txt文件(我只有路径,没有文件名),我需要将它们全部读入一个数据框 df=spark.read.json("<directorty_path>/*") df.show() 我试过这个: df=sc.wholeTextFiles("path/*") 但是我甚至不能显示数据,我的主要目标是以不同的方式对数据进行查询。而不是整个文本文件(提供键、值对,键作为文件名,数据作为值) 尝试使用read.json并指定目录名spark将把目录中的所有文件

我在一个目录中有几个包含json数据的txt文件(我只有路径,没有文件名),我需要将它们全部读入一个数据框

df=spark.read.json("<directorty_path>/*")
df.show()
我试过这个:

df=sc.wholeTextFiles("path/*")

但是我甚至不能显示数据,我的主要目标是以不同的方式对数据进行查询。

而不是
整个文本文件
(提供键、值对,键作为文件名,数据作为值)

尝试使用
read.json
并指定目录名spark将把目录中的所有文件读取到数据帧中

df=spark.read.json("<directorty_path>/*")
df.show()
从本地文件系统HDFS读取文本文件目录 (在所有节点上都可用)或任何支持Hadoop的文件系统URI。 每个文件作为单个记录读取,并以键值对的形式返回, 其中键是每个文件的路径,值是 每个文件

注意:小文件是首选,因为每个文件都将完全加载到 记忆