Java中生成的PDF报告的文本提取

Java中生成的PDF报告的文本提取,java,pdf,text-extraction,Java,Pdf,Text Extraction,我有一份超过6500名学生的学业成绩pdf。 我无法访问实际的数据库,我的梦想是从这个冗长复杂但格式相当好的文档中提取数据。这些数据将用于分析和可视化目的 请帮我- 可以提取这些数据吗?如果是,需要多少时间来编写代码? 一些工具和库最好使用JAVA。 指向教程或指南的链接。 提前谢谢 可以提取这些数据吗 对。PDF包含从文档中提取文本数据所需的所有信息。此外,表格列似乎在每页上的相同位置开始 一种方法是在不破坏布局的情况下提取文本。这对于所讨论的文档来说是非常合理和容易的,因为它是从纯文本文件

我有一份超过6500名学生的学业成绩pdf。 我无法访问实际的数据库,我的梦想是从这个冗长复杂但格式相当好的文档中提取数据。这些数据将用于分析和可视化目的

请帮我-

可以提取这些数据吗?如果是,需要多少时间来编写代码? 一些工具和库最好使用JAVA。 指向教程或指南的链接。 提前谢谢

可以提取这些数据吗

对。PDF包含从文档中提取文本数据所需的所有信息。此外,表格列似乎在每页上的相同位置开始

一种方法是在不破坏布局的情况下提取文本。这对于所讨论的文档来说是非常合理和容易的,因为它是从纯文本文件创建的。然后可以逐行分析文本

如果是,需要多少时间来编写代码

这取决于编码人员的技能。文本提取将使用一些PDF库来完成,因此只保留文本分析,并且对于您的文件来说,这看起来很容易。在第一天,概念验证应该是可能的,而且总的来说不应该超过一周

一些工具和库最好使用JAVA

我脑海中浮现出多个开源库iText、PDFBox、PDFClown;请务必了解各自的许可条件,还有许多封闭源代码库也提供文本提取功能

指向教程或指南的链接

教程/指南/示例通常可以在所选库的网站上找到

我的建议是尝试几个这样的库,检查它们的文本提取输出是否符合原始布局,它们的性能是否足够,它们的资源需求是否可以接受,以及它们的许可条件是否适合您

以下是与最初提供的PDF相关的原始答案,该PDF是为防止文本提取而构建的

可以提取这些数据吗

虽然您的文档确实看起来格式很好,但严格来说它不包含任何文本。您可能已经尝试从PDF查看器中复制和粘贴,但看到它无法提取任何内容,您可能会感到失望

您的PDF使用路径绘制操作,即直线、曲线等,而不是文本绘制操作(通常可以或多或少地从中提取文本),并对每个字母使用许多操作绘制文本。顺便说一下,这解释了文件的巨大大小


因此,文本不能立即从文档中提取。你要么浏览内容,识别绘制操作,创建一个字母,然后从中构建文本;或者您必须将PDF呈现为位图并应用OCR。

它在桌面上显示文本数据。。我想是谷歌硬盘的某些功能让它以每页一张图片的形式出现。我不仅看了谷歌硬盘的演示文稿,还下载了PDF。如果该PDF文件也是错误的,请通过一个不改变它的服务提供该PDF文件。啊,那是完全不同的。稍后我会更新我的答案。