Html 仅对特定域进行Web抓取_Html_Web_Screen Scraping_Jsoup_Scraper

Html 仅对特定域进行Web抓取

html web

Html 仅对特定域进行Web抓取,html,web,screen-scraping,jsoup,scraper,Html,Web,Screen Scraping,Jsoup,Scraper,我正在尝试制作一个web scrpper，例如，它可以从路透.com上抓取新闻文章。我想知道标题和日期。我知道我最终只需要从每个地址提取源代码，然后使用JSoup之类的东西解析HTML 我的问题是：我如何确保我在路透社网站上的每一篇新闻文章都这样做？我怎么知道我访问了所有的路透社网站地址？有什么API可以帮我解决这个问题吗？您所指的是web抓取加web爬行。你要做的是访问每个符合某些条件的链接（爬行），然后刮取内容（刮取）。我从未使用过它们，但这里有两个java框架当然，在收集URL之后，

我正在尝试制作一个web scrpper，例如，它可以从路透.com上抓取新闻文章。我想知道标题和日期。我知道我最终只需要从每个地址提取源代码，然后使用JSoup之类的东西解析HTML

我的问题是：我如何确保我在路透社网站上的每一篇新闻文章都这样做？我怎么知道我访问了所有的路透社网站地址？有什么API可以帮我解决这个问题吗？

您所指的是web抓取加web爬行。你要做的是访问每个符合某些条件的链接（爬行），然后刮取内容（刮取）。我从未使用过它们，但这里有两个java框架

当然，在收集URL之后，您必须使用jsoup（或simillar）来解析内容

更新

检查这个更好的爬虫列表。Nutch很不错，但是如果你只想抓取一个站点，那么它就非常复杂。crawler4j非常简单，但我不知道它是否支持cookies（如果这对您很重要，它就是一个交易破坏者）。

您所指的是所谓的网络抓取加网络抓取。你要做的是访问每个符合某些条件的链接（爬行），然后刮取内容（刮取）。我从未使用过它们，但这里有两个java框架

当然，在收集URL之后，您必须使用jsoup（或simillar）来解析内容

更新

检查这个更好的爬虫列表。Nutch很不错，但是如果你只想抓取一个站点，那么它就非常复杂。crawler4j非常简单，但我不知道它是否支持cookies（如果这对你很重要，它就是一个交易破坏者）。

试试这个网站

http://scrape4me.com/

我能够为标题生成此url：

http://scrape4me.com/api?url=http%3A%2F%2Fwww.reuters.com%2F&head=head&elm=&item[]试试这个网站http://scrape4me.com/

我能够为标题生成此url：http://scrape4me.com/api?url=http%3A%2F%2Fwww.reuters.com%2F&head=head&elm=&item[]很好，谢谢。你有使用这两种框架的经验吗（我假设我只使用其中一种，对吗？）？正如我在文章中提到的，不幸的是我没有。我将使用一个，在一个项目中，我有（刮板机）添加爬行，但这将是在一段时间内，所以我没有检查他们。是的，您将使用其中一个。我相信第二个，是最简单的。如果这回答了你的问题，请不要忘记接受答案。太好了，谢谢。你有使用这两种框架的经验吗（我假设我只使用其中一种，对吗？）？正如我在文章中提到的，不幸的是我没有。我将使用一个，在一个项目中，我有（刮板机）添加爬行，但这将是在一段时间内，所以我没有检查他们。是的，您将使用其中一个。我相信第二个，是最简单的。如果这回答了你的问题，请不要忘记接受答案。简短的回答是，你不断地搜索，直到你发现的新URL的数量（与旧URL的数量相比）趋于零。你无法确定reuters.com承载了多少篇文章，除非他们在URL中使用简单的索引文章代码。不幸的是，许多报纸网站使用复杂的URI模式，而且很少简洁或优雅。简单的回答是，你不断地搜索，直到你发现的新URL数量（与旧URL的数量相比）趋于零。你无法确定reuters.com承载了多少篇文章，除非他们在URL中使用简单的索引文章代码。不幸的是，许多报纸网站使用复杂的URI方案，很少简洁或优雅。