Java中生成的PDF报告的文本提取_Java_Pdf_Text Extraction

Java中生成的PDF报告的文本提取

java pdf

Java中生成的PDF报告的文本提取,java,pdf,text-extraction,Java,Pdf,Text Extraction,我有一份超过6500名学生的学业成绩pdf。我无法访问实际的数据库，我的梦想是从这个冗长复杂但格式相当好的文档中提取数据。这些数据将用于分析和可视化目的请帮我- 可以提取这些数据吗？如果是，需要多少时间来编写代码？一些工具和库最好使用JAVA。指向教程或指南的链接。提前谢谢可以提取这些数据吗对。PDF包含从文档中提取文本数据所需的所有信息。此外，表格列似乎在每页上的相同位置开始一种方法是在不破坏布局的情况下提取文本。这对于所讨论的文档来说是非常合理和容易的，因为它是从纯文本文件

我有一份超过6500名学生的学业成绩pdf。我无法访问实际的数据库，我的梦想是从这个冗长复杂但格式相当好的文档中提取数据。这些数据将用于分析和可视化目的

请帮我-

可以提取这些数据吗？如果是，需要多少时间来编写代码？一些工具和库最好使用JAVA。指向教程或指南的链接。提前谢谢

可以提取这些数据吗

对。PDF包含从文档中提取文本数据所需的所有信息。此外，表格列似乎在每页上的相同位置开始

一种方法是在不破坏布局的情况下提取文本。这对于所讨论的文档来说是非常合理和容易的，因为它是从纯文本文件创建的。然后可以逐行分析文本

如果是，需要多少时间来编写代码

这取决于编码人员的技能。文本提取将使用一些PDF库来完成，因此只保留文本分析，并且对于您的文件来说，这看起来很容易。在第一天，概念验证应该是可能的，而且总的来说不应该超过一周

一些工具和库最好使用JAVA

我脑海中浮现出多个开源库iText、PDFBox、PDFClown；请务必了解各自的许可条件，还有许多封闭源代码库也提供文本提取功能

指向教程或指南的链接

教程/指南/示例通常可以在所选库的网站上找到

我的建议是尝试几个这样的库，检查它们的文本提取输出是否符合原始布局，它们的性能是否足够，它们的资源需求是否可以接受，以及它们的许可条件是否适合您

以下是与最初提供的PDF相关的原始答案，该PDF是为防止文本提取而构建的

可以提取这些数据吗

虽然您的文档确实看起来格式很好，但严格来说它不包含任何文本。您可能已经尝试从PDF查看器中复制和粘贴，但看到它无法提取任何内容，您可能会感到失望

您的PDF使用路径绘制操作，即直线、曲线等，而不是文本绘制操作（通常可以或多或少地从中提取文本），并对每个字母使用许多操作绘制文本。顺便说一下，这解释了文件的巨大大小

因此，文本不能立即从文档中提取。你要么浏览内容，识别绘制操作，创建一个字母，然后从中构建文本；或者您必须将PDF呈现为位图并应用OCR。

它在桌面上显示文本数据。。我想是谷歌硬盘的某些功能让它以每页一张图片的形式出现。我不仅看了谷歌硬盘的演示文稿，还下载了PDF。如果该PDF文件也是错误的，请通过一个不改变它的服务提供该PDF文件。啊，那是完全不同的。稍后我会更新我的答案。