Python-Twitter爬虫_Python_Twitter

Python-Twitter爬虫

python twitter

Python-Twitter爬虫,python,twitter,Python,Twitter,我想询问是否有任何方法允许我的爬虫一直到页面底部，并等待页面加载（以便添加加载的帖子的html）。因为twitter的html代码只显示了一些帖子，你必须手动向下滚动，以便在底部帖子加载后刷新html。标签将只显示当前存在的帖子，我的爬虫程序将停止 def spider(targetname, DOMAIN, g_data): for item in g_data: try: name = item.find_all("strong", {"cla

我想询问是否有任何方法允许我的爬虫一直到页面底部，并等待页面加载（以便添加加载的帖子的html）。因为twitter的html代码只显示了一些帖子，你必须手动向下滚动，以便在底部帖子加载后刷新html。

标签将只显示当前存在的帖子，我的爬虫程序将停止

def spider(targetname, DOMAIN, g_data):
    for item in g_data:
        try:
            name = item.find_all("strong", {"class": "fullname show-popup-with-id "})[0].text
            username = item.find_all("span", {"class": "username u-dir"})[0].text
            post = item.find_all("p", {"class": "TweetTextSize TweetTextSize--normal js-tweet-text tweet-text"})[0].text
            replies = item.find_all("span", {"class": "u-hiddenVisually"})[3].text
            retweets = item.find_all("span", {"class": "u-hiddenVisually"})[4].text
            likes = item.find_all("span", {"class": "u-hiddenVisually"})[5].text
            retweetby = item.find_all("a", {"href": "/"+targetname})[0].text
            datas = item.find_all('a', {'class':'tweet-timestamp js-permalink js-nav js-tooltip'})
            for data in datas:
                link = DOMAIN + data['href']
                date = data['title']
            append_to_file(crawledfile, name, username, post, link, replies, retweets, likes, retweetby, date)
        except:
            pass

这需要爬虫程序在爬行时执行javascript，我相信大多数爬虫程序不会这样做。你可能会发现你可以用它来做任何你想做的事情

在可能的情况下，使用API通常比抓取网页更可靠

这需要爬虫程序在爬行时执行javascript，我相信大多数爬虫程序不会这样做。你可能会发现你可以用它来做任何你想做的事情

在可能的情况下，使用API通常比抓取网页更可靠

除了swalladge提到的内容之外，还有很多针对Python的Twitter软件包，这意味着您甚至不需要真正阅读Twitter的API就可以完成您想要做的事情！只需搜索TwitterPython，即可获得大量建议。

除了swalladge提到的内容外，还有很多TwitterPython软件包，这意味着您甚至不需要真正阅读TwitterAPI就可以完成您想要做的事情！只需搜索TwitterPython即可获得大量建议。

爬虫程序无法执行JavaScript函数并获得新的输出，因此您所看到的就是您所得到的。如果一个使用AJAX的网站想要爬行，它需要提供普通用户的HTML快照

在您的情况下，这将输出所有推文，但谁知道这是多少数据。然而，Twitter喜欢被爬网，因为它可以让它们在搜索引擎中轻松查看，所以有一个API可以使用。

爬网程序无法执行JavaScript函数并获得新的输出，所以你所看到的就是你得到的。如果一个使用AJAX的网站想要爬行，它需要提供普通用户的HTML快照

在您的情况下，这将输出所有推文，但谁知道这是多少数据。然而，Twitter喜欢被爬网，因为它可以使它们在搜索引擎中轻松查看，所以有一个API可供使用。

你的爬网程序是如何编写的？我用我的代码更新了帖子。你的爬网程序是如何编写的？我用我的代码更新了帖子。哦！谢谢过一会儿我会查的。哦！谢谢过一会儿我会检查的。好的，我来看看API。好的，我来看看API。