Python 动态内容中的网页抓取
我有一个关于从动态内容中抓取的一般性问题,我正在尝试用selenium解析Reddit页面,在向下滚动时加载新内容,这是最好的方法,是在每次滚动解析后保存HTML,然后再向后滚动 我想做的是在某人的页面上获取所有图片链接Python 动态内容中的网页抓取,python,selenium,web-scraping,Python,Selenium,Web Scraping,我有一个关于从动态内容中抓取的一般性问题,我正在尝试用selenium解析Reddit页面,在向下滚动时加载新内容,这是最好的方法,是在每次滚动解析后保存HTML,然后再向后滚动 我想做的是在某人的页面上获取所有图片链接 另外,还有一个问题,如果我一直向下滚动到底部,那么HTML(来自selenium)是否会包含整个页面,即是否有整个图像链接 如果您想刮取Reddit,最简单的方法可能是: 在Reddit上创建API帐户[ 通过API进行搜索,而不是滚动浏览selenium。如果愿意,可以使用P
另外,还有一个问题,如果我一直向下滚动到底部,那么HTML(来自selenium)是否会包含整个页面,即是否有整个图像链接 如果您想刮取Reddit,最简单的方法可能是:
你检查过了吗?谢谢,但是这些图片大多来自不同的网站(Imugr,Flickr…),所以我不认为使用API会提供这些链接。这是正确的答案,但一旦你切换到API,你就不再是“刮”了@CoreyGoldberg如果我使用API是真的,我不会真的抓取,我的问题是一般情况下的两部分问题,许多网站在滚动(或做某事)时加载JSON,我将Reddit作为一个这样做的网站的例子。我的问题是,一般来说,“在动态网站上这样做吗?”.问题的第二部分也没有回答,如果我向下滚动(一路上加载所有json),selenium HTML会提供所有内容吗?