Web crawler 如何抓取网页?

Web crawler 如何抓取网页?,web-crawler,Web Crawler,我是网络爬虫的初学者。我正在尝试爬网页面,例如,此页面: 我需要提取搜索结果,例如:Amazon.com或antonline.com。有谁能帮我命名一些技术、工具和软件来帮助我实现这一目标 编辑:我必须使用Java。基本上,我的想法是在浏览器开发工具(Chrome或Firebug)中检查页面。尝试查找特殊id或类。在您的页面上,这是,其中包含使用它 然后你打个电话,得到响应并解析它。(googlefordom、SAX、XPath…)这在语言和libs之间是非常不同的。例如,在Java上,我们有

我是网络爬虫的初学者。我正在尝试爬网页面,例如,此页面:

我需要提取搜索结果,例如:Amazon.com或antonline.com。有谁能帮我命名一些技术、工具和软件来帮助我实现这一目标


编辑:我必须使用Java。基本上,我的想法是在浏览器开发工具(Chrome或Firebug)中检查页面。尝试查找特殊id或类。在您的页面上,这是
,其中包含
  • 使用它

    然后你打个电话,得到响应并解析它。(googlefordom、SAX、XPath…)这在语言和libs之间是非常不同的。例如,在Java上,我们有一个JSoup库,它可以获取html(在本例中它与xml有点不同,嗯),并以方便的方式解析它


    或者更好的谷歌API;)

    Selenium WebDriver可以做到:

    一年前,我曾经用它来提取ruby,但它仍然可以用于Java

    请同时查看瓦蒂尔:(http://watir.com)

    文章中的一个示例:(使用Ruby)

    您还可以查找HTMLUnit

    下面是一个使用HTMLUnit废弃(提取)网页html元素的示例:


    从URL读入文件。一切都会好起来的

    使用页面中的模式应用正则表达式提取数据


    检查标记并梳理出数据中的模式,然后编写正则表达式来提取数据。我在这里假设你想要每件商品的标题和价格。例如,我在您的示例文件中看到,所有标题都包装在
  • 中,所有价格都在

    中。编写一个正则表达式,按顺序查找这些div的内容。

    您使用的是什么编程语言/技术/lib?您想只抓取某些站点还是像蜘蛛一样抓取所有内容?如果你只想从一个页面中提取文本,你可以使用像nokogiri这样的工具,它运行在ruby上。@three:基本上,我只需要URL。我想遍历页面并提取搜索结果中的URL。