Web scraping 特别具有抓取和刮取挑战性的网站？_Web Scraping_Screen Scraping_Web Crawler

Web scraping 特别具有抓取和刮取挑战性的网站？

web-scraping web-crawler

Web scraping 特别具有抓取和刮取挑战性的网站？,web-scraping,screen-scraping,web-crawler,Web Scraping,Screen Scraping,Web Crawler,我感兴趣的是面向公众的网站（不支持登录/身份验证），这些网站包括：大量使用内部301和302重定向防刮措施（但不禁止通过robots.txt使用爬虫）非语义标记或无效标记通过AJAX以onclick或无限滚动的形式加载的内容 URL中使用了很多参数规范问题卷积内部链路结构还有其他让网站爬行变得头疼的事情我已经构建了一个爬虫/蜘蛛程序，可以在网站上执行一系列分析，我正在寻找那些会让网站陷入困境的网站。以下是一些：通过AJAX以onclick或无限滚动的形式加载的内容

我感兴趣的是面向公众的网站（不支持登录/身份验证），这些网站包括：

大量使用内部301和302重定向
防刮措施（但不禁止通过robots.txt使用爬虫）
非语义标记或无效标记
通过AJAX以onclick或无限滚动的形式加载的内容
URL中使用了很多参数
规范问题
卷积内部链路结构
还有其他让网站爬行变得头疼的事情

我已经构建了一个爬虫/蜘蛛程序，可以在网站上执行一系列分析，我正在寻找那些会让网站陷入困境的网站。

以下是一些：

通过AJAX以onclick或无限滚动的形式加载的内容
- 这是一个中文商品页面，其评论由AJAX加载，AJAX通过在浏览器中向下滚动滚动条或根据浏览器的高度来触发。我必须使用PhantomJS和xvfb来触发这样的操作
防刮措施（但不禁止通过robots.txt使用爬虫）
- 我已经在中国对亚马逊网站进行了爬网，当我想在这些页面中爬网下一个页面时，它可能会修改请求，导致您无法获得真正的下一个页面
- 它有访问频率的限制。几天前，我想获取stackoverflow中的所有标签，并将蜘蛛的访问频率设置为10，但stackoverflow警告我。。。。。。这是我的建议。之后，我必须使用代理来爬网堆栈溢出
还有其他让网站爬行变得头疼的事情
- 这是一个中国电子商务网站，当你在浏览器中访问它时，它会显示你的位置，并根据你的位置提供一些商品
- 等等
  有许多类似上述的网站会根据您的位置提供不同的内容。当你抓取这些网站时，你得到的和你在浏览器中看到的不一样。当通过爬行器发出请求时，通常需要设置cookie

去年，我遇到一个网站，它在发出请求时需要http请求头和一些cookie，但我不记得那个网站了….
你是在寻找有挑战性的网站列表，还是在寻找有挑战性的网站的技巧？我不确定这里的问题是什么。我想要的是一系列具有挑战性的网站。为了给你一些背景知识，我已经建立了一个爬虫/蜘蛛，在一个网站上执行一系列的分析，我正在寻找那些会让它挣扎的网站。啊，对了。我想说这可能是离题了，因为这是对外部资源的要求；然而，由于这是一个有趣的问题，我不会投票结束。不过，我应该有兴趣看看会发生什么，因为我自己正在做一个爬虫项目。在中找到。这应该是一个有趣的分析：在POST操作中呈现的JavaScript链接和页面。尝试从航空公司网站上获取一些当前价格？在我的世界里，一些人会想到亚洲航空公司和捷星航空公司。他们没有任何必需的身份验证/登录，但使用AJAX。在过去，我使用过SeleniumWebDriver，但它仍然具有挑战性。堆栈溢出问题可能是通过在每个请求之间设置延迟来解决的。如果您每秒向任何站点发出大量请求，您可能会被阻止
：）
。