Sql 如何在pyspark中将多个文本文件读入数据帧
我在一个目录中有几个包含json数据的txt文件(我只有路径,没有文件名),我需要将它们全部读入一个数据框Sql 如何在pyspark中将多个文本文件读入数据帧,sql,dataframe,pyspark,rdd,databricks,Sql,Dataframe,Pyspark,Rdd,Databricks,我在一个目录中有几个包含json数据的txt文件(我只有路径,没有文件名),我需要将它们全部读入一个数据框 df=spark.read.json("<directorty_path>/*") df.show() 我试过这个: df=sc.wholeTextFiles("path/*") 但是我甚至不能显示数据,我的主要目标是以不同的方式对数据进行查询。而不是整个文本文件(提供键、值对,键作为文件名,数据作为值) 尝试使用read.json并指定目录名spark将把目录中的所有文件
df=spark.read.json("<directorty_path>/*")
df.show()
我试过这个:
df=sc.wholeTextFiles("path/*")
但是我甚至不能显示数据,我的主要目标是以不同的方式对数据进行查询。而不是
整个文本文件
(提供键、值对,键作为文件名,数据作为值)
尝试使用read.json
并指定目录名spark将把目录中的所有文件读取到数据帧中
df=spark.read.json("<directorty_path>/*")
df.show()
从本地文件系统HDFS读取文本文件目录
(在所有节点上都可用)或任何支持Hadoop的文件系统URI。
每个文件作为单个记录读取,并以键值对的形式返回,
其中键是每个文件的路径,值是
每个文件
注意:小文件是首选,因为每个文件都将完全加载到
记忆