Web crawler 如何抓取网页？_Web Crawler

Web crawler 如何抓取网页？

web-crawler

Web crawler 如何抓取网页？,web-crawler,Web Crawler,我是网络爬虫的初学者。我正在尝试爬网页面，例如，此页面：我需要提取搜索结果，例如：Amazon.com或antonline.com。有谁能帮我命名一些技术、工具和软件来帮助我实现这一目标编辑：我必须使用Java。基本上，我的想法是在浏览器开发工具（Chrome或Firebug）中检查页面。尝试查找特殊id或类。在您的页面上，这是，其中包含使用它然后你打个电话，得到响应并解析它。（googlefordom、SAX、XPath…）这在语言和libs之间是非常不同的。例如，在Java上，我们有

我是网络爬虫的初学者。我正在尝试爬网页面，例如，此页面：

我需要提取搜索结果，例如：Amazon.com或antonline.com。有谁能帮我命名一些技术、工具和软件来帮助我实现这一目标

编辑：我必须使用Java。基本上，我的想法是在浏览器开发工具（Chrome或Firebug）中检查页面。尝试查找特殊id或类。在您的页面上，这是

，其中包含

使用它

然后你打个电话，得到响应并解析它。（googlefordom、SAX、XPath…）这在语言和libs之间是非常不同的。例如，在Java上，我们有一个JSoup库，它可以获取html（在本例中它与xml有点不同，嗯），并以方便的方式解析它

或者更好的谷歌API；）

Selenium WebDriver可以做到：

一年前，我曾经用它来提取ruby，但它仍然可以用于Java

请同时查看瓦蒂尔：(http://watir.com)

文章中的一个示例：（使用Ruby）

您还可以查找HTMLUnit库

下面是一个使用HTMLUnit废弃（提取）网页html元素的示例：

从URL读入文件。一切都会好起来的

使用页面中的模式应用正则表达式提取数据

检查标记并梳理出数据中的模式，然后编写正则表达式来提取数据。我在这里假设你想要每件商品的标题和价格。例如，我在您的示例文件中看到，所有标题都包装在

中，所有价格都在

中。编写一个正则表达式，按顺序查找这些div的内容。

您使用的是什么编程语言/技术/lib？您想只抓取某些站点还是像蜘蛛一样抓取所有内容？如果你只想从一个页面中提取文本，你可以使用像nokogiri这样的工具，它运行在ruby上。@three:基本上，我只需要URL。我想遍历页面并提取搜索结果中的URL。