Parsing Nutch-如何使用自己的url将html页面拆分为多个页面？_Parsing_Solr_Web Crawler_Nutch

Parsing Nutch-如何使用自己的url将html页面拆分为多个页面？

parsing solr web-crawler

Parsing Nutch-如何使用自己的url将html页面拆分为多个页面？,parsing,solr,web-crawler,nutch,Parsing,Solr,Web Crawler,Nutch,我有一个页面（），其中包含多个块 <div> <h1 id="titleOne">First title</h1> Here is custom content <h1 id="titleTwo">Second title</h1> Here is custom content for part 2 </div> 第一个标题这里是自定义内容第二名下面是第2部分的自定义内容我想索引这个页面，就像两个独

我有一个页面（），其中包含多个块

 <div>
 <h1 id="titleOne">First title</h1>
 Here is custom content
 <h1 id="titleTwo">Second title</h1>
 Here is custom content for part 2
 </div>


第一个标题
这里是自定义内容
第二名
下面是第2部分的自定义内容

我想索引这个页面，就像两个独立的页面，它们的url不同，并且包含从一个元素到另一个元素的文本

例如：

文件1：

文件2：