Ruby on rails 如何使用nutch数据库获取特定url的内容

Ruby on rails 如何使用nutch数据库获取特定url的内容,ruby-on-rails,solr,nutch,Ruby On Rails,Solr,Nutch,我是新的坚果概念。 据我所知,我已将一切配置妥当。 我能够抓取链接,我也可以得到抓取的网址 我的问题是,我想为每个链接分别获取网页内容,但我无法找到解决方案 谁能帮帮我吗 谢谢。使用nokogiri gem解析网页内容,并使用nokogiri选择器选择链接。我已经通过逻辑分离了文件。因为我能够在单个文件中获得所有url的内容,每个记录或url都有特定的重复模式。我已经分离了行字段上的内容。谢谢对于回复Sanjiv.但我无法获取网页的内容..我使用nutch对数据库进行了爬网,无法单独找到每个链接

我是新的坚果概念。 据我所知,我已将一切配置妥当。 我能够抓取链接,我也可以得到抓取的网址

我的问题是,我想为每个链接分别获取网页内容,但我无法找到解决方案

谁能帮帮我吗


谢谢。

使用nokogiri gem解析网页内容,并使用nokogiri选择器选择链接。

我已经通过逻辑分离了文件。因为我能够在单个文件中获得所有url的内容,每个记录或url都有特定的重复模式。我已经分离了行字段上的内容。

谢谢对于回复Sanjiv.但我无法获取网页的内容..我使用nutch对数据库进行了爬网,无法单独找到每个链接的内容。