Python pyspark：查找包含单词/标签的推文数量_Python_Json_Pyspark

Python pyspark：查找包含单词/标签的推文数量

python json pyspark

Python pyspark：查找包含单词/标签的推文数量,python,json,pyspark,Python,Json,Pyspark,我试图分析一个JSON文件，其中包含来自Twitter API的数据。我想知道一个标签或特定单词在我的数据集中出现了多少次。我可以通过以下方式获得最常见推文的列表： print(df.groupby('text').count().sort(desc('count')).show()) 所以我知道，例如，利物浦在数据中是一个明确的词我只想知道“利物浦”这个词在我的数据集中出现了多少次，这可能吗？谢谢我使用Spark版本1.6.0 列的名称为 ['_corrupt_record', 'c

我试图分析一个JSON文件，其中包含来自Twitter API的数据。我想知道一个标签或特定单词在我的数据集中出现了多少次。我可以通过以下方式获得最常见推文的列表：

 print(df.groupby('text').count().sort(desc('count')).show())

所以我知道，例如，利物浦在数据中是一个明确的词

我只想知道“利物浦”这个词在我的数据集中出现了多少次，这可能吗？谢谢

我使用Spark版本1.6.0

列的名称为

['_corrupt_record', 'contributors', 'coordinates', 'created_at', 'delete', 
 'entities', 'favorite_count', 'favorited', 'filter_level', 'geo', 'id', 
 'id_str', 'in_reply_to_screen_name', 'in_reply_to_status_id', 
 'in_reply_to_status_id_str', 'in_reply_to_user_id', 'in_reply_to_user_id_str', 
 'lang', 'place', 'possibly_sensitive', 'retweet_count', 'retweeted', 
 'retweeted_status', 'scopes', 'source', 'text', 'truncated', 'user', 
 'withheld_in_countries']

不确定这在1.6中是否有效，我使用2.1，但我会做类似的事情：

from pyspark.sql.functions import col

df.where(col('text').like("%Liverpool%")).count()

你能再详细一点吗？您是否正在使用spark 2.0+？数据帧中是否已有数据？你的专栏是什么？@flyingmeatball是的，对不起。我使用的是Spark版本1.6.0。列是[“损坏记录”、“贡献者”、“坐标”、“创建时间”、“删除”、“实体”、“收藏数量”、“收藏级别”、“筛选级别”、“地理位置”、“id”、“id”str、“回复到屏幕名称”、“回复到状态id”、“回复到状态id”、“回复到用户id”、“回复到用户id”、“回复到用户id”、“回复到用户id”、“lang”、“地点”、“可能敏感”、“转发到数量”、“转发”eeted、retweeted\u status、scopes、source、text、truncated、user、dependent\u in\u countries']谢谢！我需要使用like而不是isin，但您为我指出了正确的方向df.where（col（'text'）。like（%Liverpool%）.count（）调整评论above@MelesMeles，您可以将该解决方案标记为已接受吗？当社区希望查看该解决方案时，这对社区有好处：）