Parsing Nutch-如何使用自己的url将html页面拆分为多个页面?
我有一个页面(),其中包含多个块Parsing Nutch-如何使用自己的url将html页面拆分为多个页面?,parsing,solr,web-crawler,nutch,Parsing,Solr,Web Crawler,Nutch,我有一个页面(),其中包含多个块 <div> <h1 id="titleOne">First title</h1> Here is custom content <h1 id="titleTwo">Second title</h1> Here is custom content for part 2 </div> 第一个标题 这里是自定义内容 第二名 下面是第2部分的自定义内容 我想索引这个页面,就像两个独
<div>
<h1 id="titleOne">First title</h1>
Here is custom content
<h1 id="titleTwo">Second title</h1>
Here is custom content for part 2
</div>
第一个标题
这里是自定义内容
第二名
下面是第2部分的自定义内容
我想索引这个页面,就像两个独立的页面,它们的url不同,并且包含从一个元素到另一个元素的文本
例如:
文件1:
文件2: