Python 动态内容中的网页抓取_Python_Selenium_Web Scraping

Python 动态内容中的网页抓取

python selenium web-scraping

Python 动态内容中的网页抓取,python,selenium,web-scraping,Python,Selenium,Web Scraping,我有一个关于从动态内容中抓取的一般性问题，我正在尝试用selenium解析Reddit页面，在向下滚动时加载新内容，这是最好的方法，是在每次滚动解析后保存HTML，然后再向后滚动我想做的是在某人的页面上获取所有图片链接另外，还有一个问题，如果我一直向下滚动到底部，那么HTML（来自selenium）是否会包含整个页面，即是否有整个图像链接如果您想刮取Reddit，最简单的方法可能是：在Reddit上创建API帐户[ 通过API进行搜索，而不是滚动浏览selenium。如果愿意，可以使用P

我有一个关于从动态内容中抓取的一般性问题，我正在尝试用selenium解析Reddit页面，在向下滚动时加载新内容，这是最好的方法，是在每次滚动解析后保存HTML，然后再向后滚动

我想做的是在某人的页面上获取所有图片链接

另外，还有一个问题，如果我一直向下滚动到底部，那么HTML（来自selenium）是否会包含整个页面，即是否有整个图像链接

如果您想刮取Reddit，最简单的方法可能是：

在Reddit上创建API帐户[

通过API进行搜索，而不是滚动浏览selenium。如果愿意，可以使用Praw之类的库，或者根据文档直接访问API

你检查过了吗？谢谢，但是这些图片大多来自不同的网站（Imugr，Flickr…），所以我不认为使用API会提供这些链接。这是正确的答案，但一旦你切换到API，你就不再是“刮”了@CoreyGoldberg如果我使用API是真的，我不会真的抓取，我的问题是一般情况下的两部分问题，许多网站在滚动（或做某事）时加载JSON，我将Reddit作为一个这样做的网站的例子。我的问题是，一般来说，“在动态网站上这样做吗？”.问题的第二部分也没有回答，如果我向下滚动（一路上加载所有json），selenium HTML会提供所有内容吗？