Filesystems 如何制作nutch爬行文件系统?

Filesystems 如何制作nutch爬行文件系统?,filesystems,nutch,web-crawler,Filesystems,Nutch,Web Crawler,不基于http 诸如此类, 但是直接在本地文件系统上爬网某个目录 有什么出路吗?nutch提供了内部网爬网功能。您可以从Nutch Wiki阅读详细信息: 如何为本地文件系统编制索引? 1) crawl-urlfilter.txt需要更改以允许file:url而不遵循http:ones,否则它要么不会索引任何内容,要么会从磁盘跳转到网站上。 更改此行: -^(file|ftp|mailto|https): to this: -^(http|ftp|mailto|https):

不基于http

诸如此类,

但是直接在本地文件系统上爬网某个目录


有什么出路吗?

nutch提供了内部网爬网功能。您可以从Nutch Wiki阅读详细信息:

如何为本地文件系统编制索引?

1) crawl-urlfilter.txt需要更改以允许file:url而不遵循http:ones,否则它要么不会索引任何内容,要么会从磁盘跳转到网站上。 更改此行:

  -^(file|ftp|mailto|https):

  to this:

  -^(http|ftp|mailto|https):
2) crawl-urlfilter.txt底部可能有拒绝某些URL的规则。如果它有这个片段,它可能没问题:

  # accept anything else +.*
3) 我更改了nutch.xml以包含以下内容:

<Parameter override="false" name="plugin.includes" value="protocol-file|protocol-http|urlfilter-regex|parse-(msword|pdf|text|html|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)"/>

regex-urlfilter.txt需要更改