使用nutch抓取PDF文档
我也必须从给定的URL抓取PDF文档。。。 建议使用任何工具/API来抓取PDF文档。。。 现在我正在使用nutch进行抓取,但我无法从给定的URL抓取PDF…我应该使用任何插件在nutch中抓取PDF吗 seed.txt--> regex urlfilter.txt-->+^http://([a-z0-9]*)*nutch.apache.org/ 提前感谢使用Nutch的插件。纯文本、XML、OpenDocument(OpenOffice.org)、MicrosoftOffice(Word、Excel、Powerpoint)、PDF、RTF、MP3(ID3标签)都由Tika插件解析使用nutch抓取PDF文档,pdf,nutch,Pdf,Nutch,我也必须从给定的URL抓取PDF文档。。。 建议使用任何工具/API来抓取PDF文档。。。 现在我正在使用nutch进行抓取,但我无法从给定的URL抓取PDF…我应该使用任何插件在nutch中抓取PDF吗 seed.txt--> regex urlfilter.txt-->+^http://([a-z0-9]*)*nutch.apache.org/ 提前感谢使用Nutch的插件。纯文本、XML、OpenDocument(OpenOffice.org)、MicrosoftOffice(Word、E
<property>
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(html|tika|text)|index-(basic|anchor)|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
<description>
...
</description>
</property>
plugin.includes
协议http | urlfilter regex | parse-(html | tika | text)| index-(basic | anchor)| scoring opic | urlnormalizer-(pass | regex | basic)
...
我发现即使您使用了tika插件,它仍然无法将pdf或任何ms office文件爬网到爬网数据库中。您需要在nutch site.xml的白名单中添加要爬网的url,以获取pdf和任何ms office文件:
<property>
<name>http.robot.rules.whitelist</name>
<value>xxx.xxx.xxx.xxx</value>
<description>Comma separated list of hostnames or IP addresses to ignore
robot rules parsing for. Use with care and only if you are explicitly
allowed by the site owner to ignore the site's robots.txt!
</description>
</property>
http.robot.rules.whitelist
xxx.xxx.xxx.xxx
要忽略的主机名或IP地址的逗号分隔列表
机器人规则解析。请小心使用,并且仅当您明确
网站所有者允许忽略网站的robots.txt!
执行此操作后,请检查它将返回什么样的pdf文件或pdf文件文本?Nutch将同时包含原始文件和文件中已解析的文本(如果已解析)。使用bin/nutch readseg
和bin/nutch dump
命令,您可以访问这两个()。