Python 推文抓取-如何测量推文强度?

Python 推文抓取-如何测量推文强度?,python,web-scraping,twitter,tweepy,Python,Web Scraping,Twitter,Tweepy,我正在寻找一种方法来获取关于Twitter上一些标签/关键词的“趋势”信息。比方说,我想测量一下标签/关键词“Python”在推特上的发布频率。例如,今天,“Python”平均每1分钟发一次推文,但昨天它平均每2分钟发一次推文 我尝试过各种选择,但我总是摆脱twitter API的限制,也就是说,如果我试图在最后一天(例如)下载一个标签的所有推文,则只会下载推文的某一部分(通过tweepy.cursor) 你有没有达到类似效果的想法/脚本示例?推荐图书馆或指南?我在网上找不到任何帮助。谢谢。尝试

我正在寻找一种方法来获取关于Twitter上一些标签/关键词的“趋势”信息。比方说,我想测量一下标签/关键词“Python”在推特上的发布频率。例如,今天,“Python”平均每1分钟发一次推文,但昨天它平均每2分钟发一次推文

我尝试过各种选择,但我总是摆脱twitter API的限制,也就是说,如果我试图在最后一天(例如)下载一个标签的所有推文,则只会下载推文的某一部分(通过tweepy.cursor)

你有没有达到类似效果的想法/脚本示例?推荐图书馆或指南?我在网上找不到任何帮助。谢谢。

尝试一个名为: GetOldTweets或GetOldTweets3

推特搜索及其API并不是推特的全部来源。Twitter流媒体API对匹配输入参数的tweet的提取时间限制为一周。因此,为了提取与一组搜索参数相关的所有历史推文进行分析,需要绕过Twitter官方API,并使用模仿Twitter搜索引擎的自定义库。

您应该检查存储库

  • 可以获取几乎所有tweet(twitterapi仅限于最后3200条tweet)
  • 快速初始设置
  • 可以匿名使用,无需Twitter注册
下面是一个示例代码:

导入twint
def数据(搜索):
c=twint.Config()
c、 搜索=搜索
c、 自='2021-03-05 00:00:00'
c、 截止日期='2021-03-06 00:00:00'
c、 熊猫=真
c、 Store_csv=True
c、 隐藏输出=真
c、 输出=f'{search}.csv'
c、 Limit=10#要获取的推文数
打印(f“\n#####从{c.Since}刮到{c.Until}”)
twint.run.Search(c)
打印(“\n#####预览:”)
打印(twint.storage.panda.Tweets_df.head())
如果名称=“\uuuuu main\uuuuuuuu”:
scrapeData(search=“python”)

谢谢您的回答。我认为我不一定需要历史推文,而是需要“当前强度”。最终目标是获得当前的推文数量。因此,如果方法在时间上是一致的(例如,每次调用它时,在过去一小时内获得10%的tweet),我甚至不需要拥有所有当前tweet(即使是一小部分也足够)。通过这种方式,我仍然可以近似计算推文强度。您仍然可以使用GetOldTweets库。GetOldTweets能够绕过Twitter流API限制。试试看,谢谢!这可能就是我要找的。巧合的是,我正好碰到了它,所以在你发布它的时候我正在看它。@mieleki安装
twint
使用
pip3安装--user--upgrade git+https://github.com/twintproject/twint.git@origin/master#egg=twint
否则显示错误