从研究论文PDF中提取信息

从研究论文PDF中提取信息,pdf,metadata,extraction,Pdf,Metadata,Extraction,我需要一种从PDF文档中提取书目元数据的机制,以避免人们手工输入或剪切粘贴 至少是标题和摘要。作者名单和他们的联系会很好。提取出参考文献将是一件了不起的事情 理想情况下,这将是一个开源解决方案 问题是,并非所有PDF都对文本进行编码,而且许多PDF都无法保持文本的逻辑顺序,因此只需执行pdf2text,就会得到第1列的第1行、第2列的第1行、第1列的第2行等等 我知道有很多图书馆。我需要解决的问题是确定文件上的摘要、标题作者等。这永远不可能每次都做到,但80%可以节省大量人力。看看。它是一个Ja

我需要一种从PDF文档中提取书目元数据的机制,以避免人们手工输入或剪切粘贴

至少是标题和摘要。作者名单和他们的联系会很好。提取出参考文献将是一件了不起的事情

理想情况下,这将是一个开源解决方案

问题是,并非所有PDF都对文本进行编码,而且许多PDF都无法保持文本的逻辑顺序,因此只需执行pdf2text,就会得到第1列的第1行、第2列的第1行、第1列的第2行等等


我知道有很多图书馆。我需要解决的问题是确定文件上的摘要、标题作者等。这永远不可能每次都做到,但80%可以节省大量人力。

看看。它是一个Java库,可以让您阅读PDF。您仍将面临查找正确数据的问题,但该库将提供可能用于推断用途的格式和布局信息。

另一个要尝试的Java库将是。PDF真的是专为查看和打印而设计的,所以您肯定希望有一个库为您完成一些繁重的工作。即使如此,您也可能需要将文本片段粘合在一起,以获得您想要提取的数据。祝你好运

可能会有帮助。它提供了广泛的API,用于读取和写入PDF文件(未加密)的内容,并使用简单的Python语言编写

在这种情况下,我建议

如果您需要快速了解它的功能,请查看

这不是一个开源的解决方案,但在我看来,这是目前最好的选择。它不依赖于平台,具有丰富的语言绑定和商业支持

如果有人给我指出一个同等或更好的开源替代方案,我会很高兴

要提取文本,可以使用
TET_xxx()
函数;要查询元数据,可以使用
pcos_xxx()
函数

还可以使用commanline工具生成包含所需所有信息的XML文件

tet --tetml word file.pdf
有一些关于如何在中使用处理TETML的示例

TETML包含哪些内容?

TETML输出以UTF-8编码(在带有USS或 MVS:EBCDIC-UTF-8,见www.unicode.org/reports/tr16),包括以下信息: 一般文件信息和元数据 每页文字内容(文字或段落) 字形信息(字体名称、大小、坐标) 结构信息,例如表格 有关页面上放置的图像的信息 资源信息,即字体、颜色空间和图像 PDF处理过程中发生异常时的错误消息


可能有点简单,但谷歌搜索“bibtex+纸质标题”通常会从ACM、Citeser或其他类似的参考跟踪网站获得一个格式化的bibtex条目。当然,这是假设论文不是来自非计算机期刊:D

--编辑--

我有一种感觉,你不会为此找到一个定制的解决方案,你可能想写信给引用追踪者,如citeseer、ACM和google scholar,以获得他们所做工作的想法。还有很多其他的,您可能会发现它们的实现不是封闭源代码,而是以发布的形式。关于这个问题有大量的研究资料

我所在的研究团队研究了这些问题,我们得出结论,手写提取算法或机器学习是解决问题的方法。手写算法可能是你最好的选择

这是一个相当困难的问题,因为可能存在大量的变化。我建议将PDF规范化为文本(可以从几十个编程PDF库中的任何一个获得)。然后,您需要实现自定义文本消除算法

我会从PDF的结尾向后看,看看存在哪种引用键——例如,[1],[author year],(author year),然后尝试解析下面的句子。您可能需要编写代码来规范化从库中获取的文本(删除额外的空格等)。我只会在一行的第一个单词中查找引用键,每个文档只查找10页--第一个单词必须有键分隔符--例如,“[”或“(”。如果在10页中找不到键,则忽略PDF并将其标记为人工干预

您可能需要一个库,可以通过编程方式进一步查询引用中元数据的格式,例如,itallics具有特殊的含义


我想你最终可能会花费相当长的时间来获得一个有效的解决方案,然后是一个不断调整和添加到报废算法/引擎的过程。

我每个帖子只允许有一个链接,就是这样:

这可能会得到标题和作者。看看手册页面的底部,有一个指向www.duffabs.com/xpdf的链接,在那里可以找到该程序的开放源代码,以及各种平台的二进制文件

要提取参考书目,请查看:

cb2Bib是一款免费、开源、多平台的应用程序,用于从电子邮件警报、期刊网页和PDF文件中快速提取未格式化或未标准化的参考书目

您可能还想查看www.zotero.org上讨论此主题的论坛。

刚刚发现……这真是太神奇了,Win/Lin/Mac和source都有一个二进制发行版

事实上,我解决了我的另一个问题(看看我的个人资料,我问了又回答了另一个pdf问题..由于1链接限制,无法链接)

它可以进行pdf元数据提取,例如,这将返回包含标题的行:

 pdftk test.pdf dump_data output test.txt | grep -A 1 "InfoKey: Title" | grep "InfoValue"
它可以转储标题、作者、修改日期,甚至书签和页码(测试pdf有书签)…显然需要一些工作才能正确地grep输出
me@box> pdftotext 10.1.1.90.711.pdf - | head
Computational Geometry 23 (2002) 183–194
www.elsevier.com/locate/comgeo

Voronoi diagrams on the sphere ✩
Hyeon-Suk Na a , Chung-Nim Lee a , Otfried Cheong b,∗
a Department of Mathematics, Pohang University of Science and Technology, South Korea
b Institute of Information and Computing Sciences, Utrecht University, P.O. Box 80.089, 3508 TB Utrecht, The Netherlands

Received 28 June 2001; received in revised form 6 September 2001; accepted 12 February 2002
Communicated by J.-R. Sack
me@box> gscholar.py "Voronoi diagrams on the sphere Hyeon-Suk" 
@article{na2002voronoi,
  title={Voronoi diagrams on the sphere},
  author={Na, Hyeon-Suk and Lee, Chung-Nim and Cheong, Otfried},
  journal={Computational Geometry},
  volume={23},
  number={2},
  pages={183--194},
  year={2002},
  publisher={Elsevier}
}