Web scraping 特别具有抓取和刮取挑战性的网站?

Web scraping 特别具有抓取和刮取挑战性的网站?,web-scraping,screen-scraping,web-crawler,Web Scraping,Screen Scraping,Web Crawler,我感兴趣的是面向公众的网站(不支持登录/身份验证),这些网站包括: 大量使用内部301和302重定向 防刮措施(但不禁止通过robots.txt使用爬虫) 非语义标记或无效标记 通过AJAX以onclick或无限滚动的形式加载的内容 URL中使用了很多参数 规范问题 卷积内部链路结构 还有其他让网站爬行变得头疼的事情 我已经构建了一个爬虫/蜘蛛程序,可以在网站上执行一系列分析,我正在寻找那些会让网站陷入困境的网站。以下是一些: 通过AJAX以onclick或无限滚动的形式加载的内容

我感兴趣的是面向公众的网站(不支持登录/身份验证),这些网站包括:

  • 大量使用内部301和302重定向
  • 防刮措施(但不禁止通过robots.txt使用爬虫)
  • 非语义标记或无效标记
  • 通过AJAX以onclick或无限滚动的形式加载的内容
  • URL中使用了很多参数
  • 规范问题
  • 卷积内部链路结构
  • 还有其他让网站爬行变得头疼的事情
我已经构建了一个爬虫/蜘蛛程序,可以在网站上执行一系列分析,我正在寻找那些会让网站陷入困境的网站。

以下是一些:

  • 通过AJAX以onclick或无限滚动的形式加载的内容

    • 这是一个中文商品页面,其评论由AJAX加载,AJAX通过在浏览器中向下滚动滚动条或根据浏览器的高度来触发。我必须使用PhantomJS和xvfb来触发这样的操作
  • 防刮措施(但不禁止通过robots.txt使用爬虫)

    • 我已经在中国对亚马逊网站进行了爬网,当我想在这些页面中爬网下一个页面时,它可能会修改请求,导致您无法获得真正的下一个页面

    • 它有访问频率的限制。几天前,我想获取stackoverflow中的所有标签,并将蜘蛛的访问频率设置为10,但stackoverflow警告我。。。。。。这是我的建议。之后,我必须使用代理来爬网堆栈溢出
  • 还有其他让网站爬行变得头疼的事情

    • 这是一个中国电子商务网站,当你在浏览器中访问它时,它会显示你的位置,并根据你的位置提供一些商品
    • 等等
      有许多类似上述的网站会根据您的位置提供不同的内容。当你抓取这些网站时,你得到的和你在浏览器中看到的不一样。当通过爬行器发出请求时,通常需要设置cookie

去年,我遇到一个网站,它在发出请求时需要http请求头和一些cookie,但我不记得那个网站了….

你是在寻找有挑战性的网站列表,还是在寻找有挑战性的网站的技巧?我不确定这里的问题是什么。我想要的是一系列具有挑战性的网站。为了给你一些背景知识,我已经建立了一个爬虫/蜘蛛,在一个网站上执行一系列的分析,我正在寻找那些会让它挣扎的网站。啊,对了。我想说这可能是离题了,因为这是对外部资源的要求;然而,由于这是一个有趣的问题,我不会投票结束。不过,我应该有兴趣看看会发生什么,因为我自己正在做一个爬虫项目。在中找到。这应该是一个有趣的分析:在POST操作中呈现的JavaScript链接和页面。尝试从航空公司网站上获取一些当前价格?在我的世界里,一些人会想到亚洲航空公司和捷星航空公司。他们没有任何必需的身份验证/登录,但使用AJAX。在过去,我使用过SeleniumWebDriver,但它仍然具有挑战性。堆栈溢出问题可能是通过在每个请求之间设置延迟来解决的。如果您每秒向任何站点发出大量请求,您可能会被阻止
:)