Twitter 在IRA troll tweets数据集中找到最上面的标签?
Twitter刚刚发布了数百万条与互联网巨魔农场“互联网研究机构”(IRA)相关的推文 这些大型数据集包括来自俄罗斯的3841个隶属于爱尔兰共和军的账户,以及可能来自伊朗的770个其他账户。其中包括1000多万条推特和200多万张图片、GIF、视频和潜望镜广播,包括与这些活动相关的账户最早的推特活动,可以追溯到2009年Twitter 在IRA troll tweets数据集中找到最上面的标签?,twitter,google-bigquery,opendata,Twitter,Google Bigquery,Opendata,Twitter刚刚发布了数百万条与互联网巨魔农场“互联网研究机构”(IRA)相关的推文 这些大型数据集包括来自俄罗斯的3841个隶属于爱尔兰共和军的账户,以及可能来自伊朗的770个其他账户。其中包括1000多万条推特和200多万张图片、GIF、视频和潜望镜广播,包括与这些活动相关的账户最早的推特活动,可以追溯到2009年 数据集在BigQuery中可用吗?如何找到最热门的标签?研究人员Josh Russell在BigQuery中分享了Twitter发布的数据集——现在你可以在上面写查询了
数据集在BigQuery中可用吗?如何找到最热门的标签?研究人员Josh Russell在BigQuery中分享了Twitter发布的数据集——现在你可以在上面写查询了
SELECT hashtag, retweets, top_tweet.*
FROM (
SELECT hashtag, SUM(retweet_count) retweets
, ARRAY_AGG(STRUCT(retweet_count AS top_rt_count, tweet_language AS lang, tweet_text AS top_tweet) ORDER BY retweet_count DESC LIMIT 1)[OFFSET(0)] top_tweet
FROM (
SELECT SPLIT(REGEXP_EXTRACT(hashtags, r'.(.*).$'), ', ') hashtags
, retweet_count, tweet_text, tweet_language
FROM `reddit-198411.IRAhashed.IRAhashed`
WHERE LENGTH(hashtags)>2
AND tweet_language NOT IN ('en', 'und')
), UNNEST(hashtags) hashtag
GROUP BY 1
ORDER BY 2 DESC
LIMIT 500
)
我留下了其他问题:
SELECT hashtag, retweets, top_tweet.*
FROM (
SELECT hashtag, SUM(retweet_count) retweets
, ARRAY_AGG(STRUCT(retweet_count AS top_rt_count, tweet_language AS lang, tweet_text AS top_tweet) ORDER BY retweet_count DESC LIMIT 1)[OFFSET(0)] top_tweet
FROM (
SELECT SPLIT(REGEXP_EXTRACT(hashtags, r'.(.*).$'), ', ') hashtags
, retweet_count, tweet_text, tweet_language
FROM `reddit-198411.IRAhashed.IRAhashed`
WHERE LENGTH(hashtags)>2
AND tweet_language NOT IN ('en', 'und')
), UNNEST(hashtags) hashtag
GROUP BY 1
ORDER BY 2 DESC
LIMIT 500
)