Parsing Nutch-如何使用自己的url将html页面拆分为多个页面?

Parsing Nutch-如何使用自己的url将html页面拆分为多个页面?,parsing,solr,web-crawler,nutch,Parsing,Solr,Web Crawler,Nutch,我有一个页面(),其中包含多个块 <div> <h1 id="titleOne">First title</h1> Here is custom content <h1 id="titleTwo">Second title</h1> Here is custom content for part 2 </div> 第一个标题 这里是自定义内容 第二名 下面是第2部分的自定义内容 我想索引这个页面,就像两个独

我有一个页面(),其中包含多个块

 <div>
 <h1 id="titleOne">First title</h1>
 Here is custom content
 <h1 id="titleTwo">Second title</h1>
 Here is custom content for part 2
 </div>

第一个标题
这里是自定义内容
第二名
下面是第2部分的自定义内容
我想索引这个页面,就像两个独立的页面,它们的url不同,并且包含从一个元素到另一个元素的文本

例如:

文件1:

文件2: