Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/289.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/selenium/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 动态内容中的网页抓取_Python_Selenium_Web Scraping - Fatal编程技术网

Python 动态内容中的网页抓取

Python 动态内容中的网页抓取,python,selenium,web-scraping,Python,Selenium,Web Scraping,我有一个关于从动态内容中抓取的一般性问题,我正在尝试用selenium解析Reddit页面,在向下滚动时加载新内容,这是最好的方法,是在每次滚动解析后保存HTML,然后再向后滚动 我想做的是在某人的页面上获取所有图片链接 另外,还有一个问题,如果我一直向下滚动到底部,那么HTML(来自selenium)是否会包含整个页面,即是否有整个图像链接 如果您想刮取Reddit,最简单的方法可能是: 在Reddit上创建API帐户[ 通过API进行搜索,而不是滚动浏览selenium。如果愿意,可以使用P

我有一个关于从动态内容中抓取的一般性问题,我正在尝试用selenium解析Reddit页面,在向下滚动时加载新内容,这是最好的方法,是在每次滚动解析后保存HTML,然后再向后滚动

我想做的是在某人的页面上获取所有图片链接


另外,还有一个问题,如果我一直向下滚动到底部,那么HTML(来自selenium)是否会包含整个页面,即是否有整个图像链接

如果您想刮取Reddit,最简单的方法可能是:

  • 在Reddit上创建API帐户[

  • 通过API进行搜索,而不是滚动浏览selenium。如果愿意,可以使用Praw之类的库,或者根据文档直接访问API


  • 你检查过了吗?谢谢,但是这些图片大多来自不同的网站(Imugr,Flickr…),所以我不认为使用API会提供这些链接。这是正确的答案,但一旦你切换到API,你就不再是“刮”了@CoreyGoldberg如果我使用API是真的,我不会真的抓取,我的问题是一般情况下的两部分问题,许多网站在滚动(或做某事)时加载JSON,我将Reddit作为一个这样做的网站的例子。我的问题是,一般来说,“在动态网站上这样做吗?”.问题的第二部分也没有回答,如果我向下滚动(一路上加载所有json),selenium HTML会提供所有内容吗?