如何使用IBM Watson Explorer提取PDF URL的关键字属性?

如何使用IBM Watson Explorer提取PDF URL的关键字属性?,pdf,keyword,ibm-watson,extraction,Pdf,Keyword,Ibm Watson,Extraction,我想从PDF链接中提取PDF的关键字值。我正在抓取一个包含一些PDF链接的页面。我想建立一个虚拟文档,在那里我必须将那些PDF文件排队。我不想抓取那些PDF的内容,但我只想从这些PDF中提取关键字。当我用inspect source打开那些PDF链接时,它确实有一个关键字字段。但是它没有关键字的任何值。看起来是这样的: 关键词:- 有没有办法从PDF中提取关键字?我看到那些PDF有关键字,当我下载那些PDF时,打开PDF属性和关键字有一些价值 参考资料:我不知道开箱即用的方法,但您可以尝试实

我想从PDF链接中提取PDF的关键字值。我正在抓取一个包含一些PDF链接的页面。我想建立一个虚拟文档,在那里我必须将那些PDF文件排队。我不想抓取那些PDF的内容,但我只想从这些PDF中提取关键字。当我用inspect source打开那些PDF链接时,它确实有一个关键字字段。但是它没有关键字的任何值。看起来是这样的:


关键词:

-

有没有办法从PDF中提取关键字?我看到那些PDF有关键字,当我下载那些PDF时,打开PDF属性和关键字有一些价值


参考资料:

我不知道开箱即用的方法,但您可以尝试实现一个爬虫插件或您自己的爬虫。有一些钩子可以添加提取元数据并将它们添加到索引中,例如,在爬虫插件中,您可以执行以下操作

@覆盖
公共CrawledData updateDocument(CrawledData CrawledData)引发CrawlerPlugineException{
List metadataList=crawledData.getMetadataList();
字符串MyPDFProperty=getFromOriginalContent(crawledData.GetOriginalContent());
//需要为PDF文档实现的getFromOriginalContent方法
if(metadataList==null){
metadataList=新的ArrayList();
}                       
FieldMetadata PdfieldMetadata=新的FieldMetadata(“pdfextractedpropertyr”,MyPDFProperty);
添加(pdfFieldMetaData);
crawledData.setMetadataList(metadataList);
}捕获(客户端服务异常e){
logger.error(例如getMessage());
抛出新的crawlerPlugineException(e);
}
}
返回数据;
}