Python PySpark从一个目录中读取多个json格式的txt文件_Python_Json_Pyspark_K Means_Azure Databricks

Python PySpark从一个目录中读取多个json格式的txt文件

python json pyspark

Python PySpark从一个目录中读取多个json格式的txt文件,python,json,pyspark,k-means,azure-databricks,Python,Json,Pyspark,K Means,Azure Databricks,我目前正在分布式数据库类中执行一项任务，用于读取以json文件格式编写的tweet数据的txt文件，并将tweet加载到数据帧中（然后通过pyspark的kmeans算法运行）。我有目录，但是我不知道特定文本文件的名称（我非常确定目录中的所有文件都是与任务相关的文本文件）此外，因为我应该通过kmeans算法来运行它，所以如何获得运行中要使用的非数字特性任何协助都将不胜感激。再挖掘一番之后 dataset = spark.read.format("json").load("/mnt/ddsc

我目前正在分布式数据库类中执行一项任务，用于读取以json文件格式编写的tweet数据的txt文件，并将tweet加载到数据帧中（然后通过pyspark的kmeans算法运行）。我有目录，但是我不知道特定文本文件的名称（我非常确定目录中的所有文件都是与任务相关的文本文件）

此外，因为我应该通过kmeans算法来运行它，所以如何获得运行中要使用的非数字特性

任何协助都将不胜感激。

再挖掘一番之后

dataset = spark.read.format("json").load("/mnt/ddscoursedatabricksstg/ddscoursedatabricksdata/coronavirus-tweets/*txt")

似乎很管用。

经过进一步挖掘后

dataset = spark.read.format("json").load("/mnt/ddscoursedatabricksstg/ddscoursedatabricksdata/coronavirus-tweets/*txt")

看起来很有意思