Html 仅对特定域进行Web抓取

Html 仅对特定域进行Web抓取,html,web,screen-scraping,jsoup,scraper,Html,Web,Screen Scraping,Jsoup,Scraper,我正在尝试制作一个web scrpper,例如,它可以从路透.com上抓取新闻文章。我想知道标题和日期。我知道我最终只需要从每个地址提取源代码,然后使用JSoup之类的东西解析HTML 我的问题是:我如何确保我在路透社网站上的每一篇新闻文章都这样做?我怎么知道我访问了所有的路透社网站地址?有什么API可以帮我解决这个问题吗?您所指的是web抓取加web爬行。你要做的是访问每个符合某些条件的链接(爬行),然后刮取内容(刮取)。我从未使用过它们,但这里有两个java框架 当然,在收集URL之后,

我正在尝试制作一个web scrpper,例如,它可以从路透.com上抓取新闻文章。我想知道标题和日期。我知道我最终只需要从每个地址提取源代码,然后使用JSoup之类的东西解析HTML


我的问题是:我如何确保我在路透社网站上的每一篇新闻文章都这样做?我怎么知道我访问了所有的路透社网站地址?有什么API可以帮我解决这个问题吗?

您所指的是web抓取加web爬行。你要做的是访问每个符合某些条件的链接(爬行),然后刮取内容(刮取)。我从未使用过它们,但这里有两个java框架

  • 当然,在收集URL之后,您必须使用jsoup(或simillar)来解析内容

    更新
    检查这个更好的爬虫列表。Nutch很不错,但是如果你只想抓取一个站点,那么它就非常复杂。crawler4j非常简单,但我不知道它是否支持cookies(如果这对您很重要,它就是一个交易破坏者)。

    您所指的是所谓的网络抓取加网络抓取。你要做的是访问每个符合某些条件的链接(爬行),然后刮取内容(刮取)。我从未使用过它们,但这里有两个java框架

  • 当然,在收集URL之后,您必须使用jsoup(或simillar)来解析内容

    更新
    检查这个更好的爬虫列表。Nutch很不错,但是如果你只想抓取一个站点,那么它就非常复杂。crawler4j非常简单,但我不知道它是否支持cookies(如果这对你很重要,它就是一个交易破坏者)。

    试试这个网站
    http://scrape4me.com/


    我能够为标题生成此url:
    http://scrape4me.com/api?url=http%3A%2F%2Fwww.reuters.com%2F&head=head&elm=&item[]试试这个网站
    http://scrape4me.com/


    我能够为标题生成此url:
    http://scrape4me.com/api?url=http%3A%2F%2Fwww.reuters.com%2F&head=head&elm=&item[]很好,谢谢。你有使用这两种框架的经验吗(我假设我只使用其中一种,对吗?)?正如我在文章中提到的,不幸的是我没有。我将使用一个,在一个项目中,我有(刮板机)添加爬行,但这将是在一段时间内,所以我没有检查他们。是的,您将使用其中一个。我相信第二个,是最简单的。如果这回答了你的问题,请不要忘记接受答案。太好了,谢谢。你有使用这两种框架的经验吗(我假设我只使用其中一种,对吗?)?正如我在文章中提到的,不幸的是我没有。我将使用一个,在一个项目中,我有(刮板机)添加爬行,但这将是在一段时间内,所以我没有检查他们。是的,您将使用其中一个。我相信第二个,是最简单的。如果这回答了你的问题,请不要忘记接受答案。简短的回答是,你不断地搜索,直到你发现的新URL的数量(与旧URL的数量相比)趋于零。你无法确定reuters.com承载了多少篇文章,除非他们在URL中使用简单的索引文章代码。不幸的是,许多报纸网站使用复杂的URI模式,而且很少简洁或优雅。简单的回答是,你不断地搜索,直到你发现的新URL数量(与旧URL的数量相比)趋于零。你无法确定reuters.com承载了多少篇文章,除非他们在URL中使用简单的索引文章代码。不幸的是,许多报纸网站使用复杂的URI方案,很少简洁或优雅。