从研究论文PDF中提取信息_Pdf_Metadata_Extraction

从研究论文PDF中提取信息

pdf

从研究论文PDF中提取信息,pdf,metadata,extraction,Pdf,Metadata,Extraction,我需要一种从PDF文档中提取书目元数据的机制，以避免人们手工输入或剪切粘贴至少是标题和摘要。作者名单和他们的联系会很好。提取出参考文献将是一件了不起的事情理想情况下，这将是一个开源解决方案问题是，并非所有PDF都对文本进行编码，而且许多PDF都无法保持文本的逻辑顺序，因此只需执行pdf2text，就会得到第1列的第1行、第2列的第1行、第1列的第2行等等我知道有很多图书馆。我需要解决的问题是确定文件上的摘要、标题作者等。这永远不可能每次都做到，但80%可以节省大量人力。看看。它是一个Ja

我需要一种从PDF文档中提取书目元数据的机制，以避免人们手工输入或剪切粘贴

至少是标题和摘要。作者名单和他们的联系会很好。提取出参考文献将是一件了不起的事情

理想情况下，这将是一个开源解决方案

问题是，并非所有PDF都对文本进行编码，而且许多PDF都无法保持文本的逻辑顺序，因此只需执行pdf2text，就会得到第1列的第1行、第2列的第1行、第1列的第2行等等

我知道有很多图书馆。我需要解决的问题是确定文件上的摘要、标题作者等。这永远不可能每次都做到，但80%可以节省大量人力。

看看。它是一个Java库，可以让您阅读PDF。您仍将面临查找正确数据的问题，但该库将提供可能用于推断用途的格式和布局信息。

另一个要尝试的Java库将是。PDF真的是专为查看和打印而设计的，所以您肯定希望有一个库为您完成一些繁重的工作。即使如此，您也可能需要将文本片段粘合在一起，以获得您想要提取的数据。祝你好运

可能会有帮助。它提供了广泛的API，用于读取和写入PDF文件（未加密）的内容，并使用简单的Python语言编写

在这种情况下，我建议

如果您需要快速了解它的功能，请查看

这不是一个开源的解决方案，但在我看来，这是目前最好的选择。它不依赖于平台，具有丰富的语言绑定和商业支持

如果有人给我指出一个同等或更好的开源替代方案，我会很高兴

要提取文本，可以使用

TET_xxx（）

函数；要查询元数据，可以使用

pcos_xxx（）

函数

还可以使用commanline工具生成包含所需所有信息的XML文件

tet --tetml word file.pdf

有一些关于如何在中使用处理TETML的示例

TETML包含哪些内容？

TETML输出以UTF-8编码（在带有USS或 MVS:EBCDIC-UTF-8，见www.unicode.org/reports/tr16），包括以下信息：一般文件信息和元数据每页文字内容（文字或段落）字形信息（字体名称、大小、坐标）结构信息，例如表格有关页面上放置的图像的信息资源信息，即字体、颜色空间和图像 PDF处理过程中发生异常时的错误消息

可能有点简单，但谷歌搜索“bibtex+纸质标题”通常会从ACM、Citeser或其他类似的参考跟踪网站获得一个格式化的bibtex条目。当然，这是假设论文不是来自非计算机期刊：D

--编辑--

我有一种感觉，你不会为此找到一个定制的解决方案，你可能想写信给引用追踪者，如citeseer、ACM和google scholar，以获得他们所做工作的想法。还有很多其他的，您可能会发现它们的实现不是封闭源代码，而是以发布的形式。关于这个问题有大量的研究资料

我所在的研究团队研究了这些问题，我们得出结论，手写提取算法或机器学习是解决问题的方法。手写算法可能是你最好的选择

这是一个相当困难的问题，因为可能存在大量的变化。我建议将PDF规范化为文本（可以从几十个编程PDF库中的任何一个获得）。然后，您需要实现自定义文本消除算法

我会从PDF的结尾向后看，看看存在哪种引用键——例如，[1]，[author year]，（author year），然后尝试解析下面的句子。您可能需要编写代码来规范化从库中获取的文本（删除额外的空格等）。我只会在一行的第一个单词中查找引用键，每个文档只查找10页--第一个单词必须有键分隔符--例如，“[”或“（”。如果在10页中找不到键，则忽略PDF并将其标记为人工干预

您可能需要一个库，可以通过编程方式进一步查询引用中元数据的格式，例如，itallics具有特殊的含义

我想你最终可能会花费相当长的时间来获得一个有效的解决方案，然后是一个不断调整和添加到报废算法/引擎的过程。

我每个帖子只允许有一个链接，就是这样：

这可能会得到标题和作者。看看手册页面的底部，有一个指向www.duffabs.com/xpdf的链接，在那里可以找到该程序的开放源代码，以及各种平台的二进制文件

要提取参考书目，请查看：

cb2Bib是一款免费、开源、多平台的应用程序，用于从电子邮件警报、期刊网页和PDF文件中快速提取未格式化或未标准化的参考书目

您可能还想查看www.zotero.org上讨论此主题的论坛。

刚刚发现……这真是太神奇了，Win/Lin/Mac和source都有一个二进制发行版

事实上，我解决了我的另一个问题（看看我的个人资料，我问了又回答了另一个pdf问题..由于1链接限制，无法链接）

它可以进行pdf元数据提取，例如，这将返回包含标题的行：

 pdftk test.pdf dump_data output test.txt | grep -A 1 "InfoKey: Title" | grep "InfoValue"

它可以转储标题、作者、修改日期，甚至书签和页码（测试pdf有书签）…显然需要一些工作才能正确地grep输出

me@box> pdftotext 10.1.1.90.711.pdf - | head
Computational Geometry 23 (2002) 183–194
www.elsevier.com/locate/comgeo

Voronoi diagrams on the sphere ✩
Hyeon-Suk Na a , Chung-Nim Lee a , Otfried Cheong b,∗
a Department of Mathematics, Pohang University of Science and Technology, South Korea
b Institute of Information and Computing Sciences, Utrecht University, P.O. Box 80.089, 3508 TB Utrecht, The Netherlands

Received 28 June 2001; received in revised form 6 September 2001; accepted 12 February 2002
Communicated by J.-R. Sack
me@box> gscholar.py "Voronoi diagrams on the sphere Hyeon-Suk" 
@article{na2002voronoi,
  title={Voronoi diagrams on the sphere},
  author={Na, Hyeon-Suk and Lee, Chung-Nim and Cheong, Otfried},
  journal={Computational Geometry},
  volume={23},
  number={2},
  pages={183--194},
  year={2002},
  publisher={Elsevier}
}