Python PySpark从一个目录中读取多个json格式的txt文件

Python PySpark从一个目录中读取多个json格式的txt文件,python,json,pyspark,k-means,azure-databricks,Python,Json,Pyspark,K Means,Azure Databricks,我目前正在分布式数据库类中执行一项任务,用于读取以json文件格式编写的tweet数据的txt文件,并将tweet加载到数据帧中(然后通过pyspark的kmeans算法运行)。 我有目录,但是我不知道特定文本文件的名称(我非常确定目录中的所有文件都是与任务相关的文本文件) 此外,因为我应该通过kmeans算法来运行它,所以如何获得运行中要使用的非数字特性 任何协助都将不胜感激。再挖掘一番之后 dataset = spark.read.format("json").load("/mnt/ddsc

我目前正在分布式数据库类中执行一项任务,用于读取以json文件格式编写的tweet数据的txt文件,并将tweet加载到数据帧中(然后通过pyspark的kmeans算法运行)。 我有目录,但是我不知道特定文本文件的名称(我非常确定目录中的所有文件都是与任务相关的文本文件)

此外,因为我应该通过kmeans算法来运行它,所以如何获得运行中要使用的非数字特性


任何协助都将不胜感激。

再挖掘一番之后

dataset = spark.read.format("json").load("/mnt/ddscoursedatabricksstg/ddscoursedatabricksdata/coronavirus-tweets/*txt")

似乎很管用。

经过进一步挖掘后

dataset = spark.read.format("json").load("/mnt/ddscoursedatabricksstg/ddscoursedatabricksdata/coronavirus-tweets/*txt")
看起来很有意思