Twitter 在IRA troll tweets数据集中找到最上面的标签?

Twitter 在IRA troll tweets数据集中找到最上面的标签?,twitter,google-bigquery,opendata,Twitter,Google Bigquery,Opendata,Twitter刚刚发布了数百万条与互联网巨魔农场“互联网研究机构”(IRA)相关的推文 这些大型数据集包括来自俄罗斯的3841个隶属于爱尔兰共和军的账户,以及可能来自伊朗的770个其他账户。其中包括1000多万条推特和200多万张图片、GIF、视频和潜望镜广播,包括与这些活动相关的账户最早的推特活动,可以追溯到2009年 数据集在BigQuery中可用吗?如何找到最热门的标签?研究人员Josh Russell在BigQuery中分享了Twitter发布的数据集——现在你可以在上面写查询了

Twitter刚刚发布了数百万条与互联网巨魔农场“互联网研究机构”(IRA)相关的推文

这些大型数据集包括来自俄罗斯的3841个隶属于爱尔兰共和军的账户,以及可能来自伊朗的770个其他账户。其中包括1000多万条推特和200多万张图片、GIF、视频和潜望镜广播,包括与这些活动相关的账户最早的推特活动,可以追溯到2009年


数据集在BigQuery中可用吗?如何找到最热门的标签?

研究人员Josh Russell在BigQuery中分享了Twitter发布的数据集——现在你可以在上面写查询了

根据其标签获得的转发次数排名前几位的推文(英文):

对于其他语言,我将结果导出到Google工作表并运行GOOGLETRANSLATE()函数:

SELECT hashtag, retweets, top_tweet.*
FROM (
  SELECT hashtag, SUM(retweet_count) retweets
    , ARRAY_AGG(STRUCT(retweet_count AS top_rt_count, tweet_language AS lang, tweet_text AS top_tweet) ORDER BY retweet_count DESC LIMIT 1)[OFFSET(0)] top_tweet
  FROM (
    SELECT SPLIT(REGEXP_EXTRACT(hashtags, r'.(.*).$'), ', ') hashtags
      , retweet_count, tweet_text, tweet_language   
    FROM `reddit-198411.IRAhashed.IRAhashed` 
    WHERE LENGTH(hashtags)>2
    AND tweet_language NOT IN ('en', 'und')
  ), UNNEST(hashtags) hashtag
  GROUP BY 1
  ORDER BY 2 DESC
  LIMIT 500
)

我留下了其他问题:

SELECT hashtag, retweets, top_tweet.*
FROM (
  SELECT hashtag, SUM(retweet_count) retweets
    , ARRAY_AGG(STRUCT(retweet_count AS top_rt_count, tweet_language AS lang, tweet_text AS top_tweet) ORDER BY retweet_count DESC LIMIT 1)[OFFSET(0)] top_tweet
  FROM (
    SELECT SPLIT(REGEXP_EXTRACT(hashtags, r'.(.*).$'), ', ') hashtags
      , retweet_count, tweet_text, tweet_language   
    FROM `reddit-198411.IRAhashed.IRAhashed` 
    WHERE LENGTH(hashtags)>2
    AND tweet_language NOT IN ('en', 'und')
  ), UNNEST(hashtags) hashtag
  GROUP BY 1
  ORDER BY 2 DESC
  LIMIT 500
)