Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/355.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python pyspark:查找包含单词/标签的推文数量_Python_Json_Pyspark - Fatal编程技术网

Python pyspark:查找包含单词/标签的推文数量

Python pyspark:查找包含单词/标签的推文数量,python,json,pyspark,Python,Json,Pyspark,我试图分析一个JSON文件,其中包含来自Twitter API的数据。 我想知道一个标签或特定单词在我的数据集中出现了多少次。我可以通过以下方式获得最常见推文的列表: print(df.groupby('text').count().sort(desc('count')).show()) 所以我知道,例如,利物浦在数据中是一个明确的词 我只想知道“利物浦”这个词在我的数据集中出现了多少次,这可能吗?谢谢 我使用Spark版本1.6.0 列的名称为 ['_corrupt_record', 'c

我试图分析一个JSON文件,其中包含来自Twitter API的数据。 我想知道一个标签或特定单词在我的数据集中出现了多少次。我可以通过以下方式获得最常见推文的列表:

 print(df.groupby('text').count().sort(desc('count')).show())
所以我知道,例如,利物浦在数据中是一个明确的词

我只想知道“利物浦”这个词在我的数据集中出现了多少次,这可能吗?谢谢

我使用Spark版本1.6.0

列的名称为

['_corrupt_record', 'contributors', 'coordinates', 'created_at', 'delete', 
 'entities', 'favorite_count', 'favorited', 'filter_level', 'geo', 'id', 
 'id_str', 'in_reply_to_screen_name', 'in_reply_to_status_id', 
 'in_reply_to_status_id_str', 'in_reply_to_user_id', 'in_reply_to_user_id_str', 
 'lang', 'place', 'possibly_sensitive', 'retweet_count', 'retweeted', 
 'retweeted_status', 'scopes', 'source', 'text', 'truncated', 'user', 
 'withheld_in_countries']

不确定这在1.6中是否有效,我使用2.1,但我会做类似的事情:

from pyspark.sql.functions import col

df.where(col('text').like("%Liverpool%")).count()

你能再详细一点吗?您是否正在使用spark 2.0+?数据帧中是否已有数据?你的专栏是什么?@flyingmeatball是的,对不起。我使用的是Spark版本1.6.0。列是[“损坏记录”、“贡献者”、“坐标”、“创建时间”、“删除”、“实体”、“收藏数量”、“收藏级别”、“筛选级别”、“地理位置”、“id”、“id”str、“回复到屏幕名称”、“回复到状态id”、“回复到状态id”、“回复到用户id”、“回复到用户id”、“回复到用户id”、“回复到用户id”、“lang”、“地点”、“可能敏感”、“转发到数量”、“转发”eeted、retweeted\u status、scopes、source、text、truncated、user、dependent\u in\u countries']谢谢!我需要使用like而不是isin,但您为我指出了正确的方向df.where(col('text')。like(%Liverpool%).count()调整评论above@MelesMeles,您可以将该解决方案标记为已接受吗?当社区希望查看该解决方案时,这对社区有好处:)