如何使用IBM Watson Explorer提取PDF URL的关键字属性？_Pdf_Keyword_Ibm Watson_Extraction

如何使用IBM Watson Explorer提取PDF URL的关键字属性？

pdf

如何使用IBM Watson Explorer提取PDF URL的关键字属性？,pdf,keyword,ibm-watson,extraction,Pdf,Keyword,Ibm Watson,Extraction,我想从PDF链接中提取PDF的关键字值。我正在抓取一个包含一些PDF链接的页面。我想建立一个虚拟文档，在那里我必须将那些PDF文件排队。我不想抓取那些PDF的内容，但我只想从这些PDF中提取关键字。当我用inspect source打开那些PDF链接时，它确实有一个关键字字段。但是它没有关键字的任何值。看起来是这样的：关键词：- 有没有办法从PDF中提取关键字？我看到那些PDF有关键字，当我下载那些PDF时，打开PDF属性和关键字有一些价值参考资料：我不知道开箱即用的方法，但您可以尝试实

我想从PDF链接中提取PDF的关键字值。我正在抓取一个包含一些PDF链接的页面。我想建立一个虚拟文档，在那里我必须将那些PDF文件排队。我不想抓取那些PDF的内容，但我只想从这些PDF中提取关键字。当我用inspect source打开那些PDF链接时，它确实有一个关键字字段。但是它没有关键字的任何值。看起来是这样的：


关键词：-

有没有办法从PDF中提取关键字？我看到那些PDF有关键字，当我下载那些PDF时，打开PDF属性和关键字有一些价值

参考资料：

我不知道开箱即用的方法，但您可以尝试实现一个爬虫插件或您自己的爬虫。有一些钩子可以添加提取元数据并将它们添加到索引中，例如，在爬虫插件中，您可以执行以下操作

@覆盖
公共CrawledData updateDocument（CrawledData CrawledData）引发CrawlerPlugineException{
List metadataList=crawledData.getMetadataList（）；
字符串MyPDFProperty=getFromOriginalContent（crawledData.GetOriginalContent（））；
//需要为PDF文档实现的getFromOriginalContent方法
if（metadataList==null）{
metadataList=新的ArrayList（）；
}                       
FieldMetadata PdfieldMetadata=新的FieldMetadata（“pdfextractedpropertyr”，MyPDFProperty）；
添加（pdfFieldMetaData）；
crawledData.setMetadataList（metadataList）；
}捕获（客户端服务异常e）{
logger.error（例如getMessage（））；
抛出新的crawlerPlugineException（e）；
}
}
返回数据；
}