使用nutch抓取PDF文档_Pdf_Nutch

使用nutch抓取PDF文档

pdf

使用nutch抓取PDF文档,pdf,nutch,Pdf,Nutch,我也必须从给定的URL抓取PDF文档。。。建议使用任何工具/API来抓取PDF文档。。。现在我正在使用nutch进行抓取，但我无法从给定的URL抓取PDF…我应该使用任何插件在nutch中抓取PDF吗 seed.txt--> regex urlfilter.txt-->+^http://（[a-z0-9]*）*nutch.apache.org/ 提前感谢使用Nutch的插件。纯文本、XML、OpenDocument（OpenOffice.org）、MicrosoftOffice（Word、E

我也必须从给定的URL抓取PDF文档。。。建议使用任何工具/API来抓取PDF文档。。。现在我正在使用nutch进行抓取，但我无法从给定的URL抓取PDF…我应该使用任何插件在nutch中抓取PDF吗

seed.txt--> regex urlfilter.txt-->+^http://（[a-z0-9]*）*nutch.apache.org/

提前感谢

使用Nutch的插件。纯文本、XML、OpenDocument（OpenOffice.org）、MicrosoftOffice（Word、Excel、Powerpoint）、PDF、RTF、MP3（ID3标签）都由Tika插件解析

编辑regex urlfilter.txt并删除任何出现的“pdf”

编辑后缀urlfilter.txt并删除任何出现的“pdf”

编辑nutch site.xml，在 plugin.includes节。这个应该是这样的

这个答案来自于。我在Nutch上工作时已经测试过了

<property>


<name>plugin.includes</name>
  <value>protocol-http|urlfilter-regex|parse-(html|tika|text)|index-(basic|anchor)|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
  <description>
    ...
  </description>
</property>


plugin.includes
协议http | urlfilter regex | parse-（html | tika | text）| index-（basic | anchor）| scoring opic | urlnormalizer-（pass | regex | basic）
...

我发现即使您使用了tika插件，它仍然无法将pdf或任何ms office文件爬网到爬网数据库中。您需要在nutch site.xml的白名单中添加要爬网的url，以获取pdf和任何ms office文件：

<property>
  <name>http.robot.rules.whitelist</name>
  <value>xxx.xxx.xxx.xxx</value>
  <description>Comma separated list of hostnames or IP addresses to ignore 
  robot rules parsing for. Use with care and only if you are explicitly
  allowed by the site owner to ignore the site's robots.txt!
  </description>
</property>


http.robot.rules.whitelist
xxx.xxx.xxx.xxx
要忽略的主机名或IP地址的逗号分隔列表
机器人规则解析。请小心使用，并且仅当您明确
网站所有者允许忽略网站的robots.txt！

执行此操作后，请检查它将返回什么样的pdf文件或pdf文件文本？Nutch将同时包含原始文件和文件中已解析的文本（如果已解析）。使用

bin/nutch readseg

和

bin/nutch dump

命令，您可以访问这两个（）。