Pyspark 从RDD统计不同的用户

Pyspark 从RDD统计不同的用户,pyspark,rdd,pyspark-sql,Pyspark,Rdd,Pyspark Sql,我有一个json文件,我使用textFile将它加载到我的程序中。我想计算json数据中不同用户的数量。我无法转换为数据帧或数据集。我尝试了以下代码,它给了我一些java EOF错误 jsonFile=sc.textFile('some.json') dd=jsonFile.filter(lambda x:x[1]).distinct().count() #第二列是用户ID coulmn 样本数据 {"review_id":"Q1sbwvVQXV2734tPgoKj4Q","user_id":

我有一个json文件,我使用textFile将它加载到我的程序中。我想计算json数据中不同用户的数量。我无法转换为数据帧或数据集。我尝试了以下代码,它给了我一些java EOF错误

jsonFile=sc.textFile('some.json')
dd=jsonFile.filter(lambda x:x[1]).distinct().count()
#第二列是用户ID coulmn
样本数据

{"review_id":"Q1sbwvVQXV2734tPgoKj4Q","user_id":"hG7b0MtEbXx5QzbzE6C_VA","business_id":"ujmEBvifdJM6h6RLv4wQIg","stars":1.0,text":"Total bill for this horrible service? Over $8Gs","date":"2013-05-07 04:34:36"}
使用:

直接将json读入数据帧


根据您的文件要求尝试将多行设置为True和False提供一些示例数据。请参阅更新的帖子
spark.read.json(Json_File, multiLine=True)