Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/334.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python-Twitter爬虫_Python_Twitter - Fatal编程技术网

Python-Twitter爬虫

Python-Twitter爬虫,python,twitter,Python,Twitter,我想询问是否有任何方法允许我的爬虫一直到页面底部,并等待页面加载(以便添加加载的帖子的html)。因为twitter的html代码只显示了一些帖子,你必须手动向下滚动,以便在底部帖子加载后刷新html。标签将只显示当前存在的帖子,我的爬虫程序将停止 def spider(targetname, DOMAIN, g_data): for item in g_data: try: name = item.find_all("strong", {"cla

我想询问是否有任何方法允许我的爬虫一直到页面底部,并等待页面加载(以便添加加载的帖子的html)。因为twitter的html代码只显示了一些帖子,你必须手动向下滚动,以便在底部帖子加载后刷新html。
标签将只显示当前存在的帖子,我的爬虫程序将停止

def spider(targetname, DOMAIN, g_data):
    for item in g_data:
        try:
            name = item.find_all("strong", {"class": "fullname show-popup-with-id "})[0].text
            username = item.find_all("span", {"class": "username u-dir"})[0].text
            post = item.find_all("p", {"class": "TweetTextSize TweetTextSize--normal js-tweet-text tweet-text"})[0].text
            replies = item.find_all("span", {"class": "u-hiddenVisually"})[3].text
            retweets = item.find_all("span", {"class": "u-hiddenVisually"})[4].text
            likes = item.find_all("span", {"class": "u-hiddenVisually"})[5].text
            retweetby = item.find_all("a", {"href": "/"+targetname})[0].text
            datas = item.find_all('a', {'class':'tweet-timestamp js-permalink js-nav js-tooltip'})
            for data in datas:
                link = DOMAIN + data['href']
                date = data['title']
            append_to_file(crawledfile, name, username, post, link, replies, retweets, likes, retweetby, date)
        except:
            pass

这需要爬虫程序在爬行时执行javascript,我相信大多数爬虫程序不会这样做。你可能会发现你可以用它来做任何你想做的事情


在可能的情况下,使用API通常比抓取网页更可靠

这需要爬虫程序在爬行时执行javascript,我相信大多数爬虫程序不会这样做。你可能会发现你可以用它来做任何你想做的事情


在可能的情况下,使用API通常比抓取网页更可靠

除了swalladge提到的内容之外,还有很多针对Python的Twitter软件包,这意味着您甚至不需要真正阅读Twitter的API就可以完成您想要做的事情!只需搜索TwitterPython,即可获得大量建议。

除了swalladge提到的内容外,还有很多TwitterPython软件包,这意味着您甚至不需要真正阅读TwitterAPI就可以完成您想要做的事情!只需搜索TwitterPython即可获得大量建议。

爬虫程序无法执行JavaScript函数并获得新的输出,因此您所看到的就是您所得到的。如果一个使用AJAX的网站想要爬行,它需要提供普通用户的HTML快照


在您的情况下,这将输出所有推文,但谁知道这是多少数据。然而,Twitter喜欢被爬网,因为它可以让它们在搜索引擎中轻松查看,所以有一个API可以使用。

爬网程序无法执行JavaScript函数并获得新的输出,所以你所看到的就是你得到的。如果一个使用AJAX的网站想要爬行,它需要提供普通用户的HTML快照


在您的情况下,这将输出所有推文,但谁知道这是多少数据。然而,Twitter喜欢被爬网,因为它可以使它们在搜索引擎中轻松查看,所以有一个API可供使用。

你的爬网程序是如何编写的?我用我的代码更新了帖子。你的爬网程序是如何编写的?我用我的代码更新了帖子。哦!谢谢过一会儿我会查的。哦!谢谢过一会儿我会检查的。好的,我来看看API。好的,我来看看API。