为什么使用java的PDF文本提取器（如PDFBox、itext）从PDF中提取的文本是分散的、非结构化的？_Java_Pdf_Itext_Pdfbox

为什么使用java的PDF文本提取器（如PDFBox、itext）从PDF中提取的文本是分散的、非结构化的？

java pdf itext

为什么使用java的PDF文本提取器（如PDFBox、itext）从PDF中提取的文本是分散的、非结构化的？,java,pdf,itext,pdfbox,Java,Pdf,Itext,Pdfbox,我使用ApachePDFBox和iText从pdf中提取文本。但这两个提取的文本都是完全无结构和混乱的这是但提取的文本是： 1111111111111111111111111111111111111111111111111111111111111111111111111111 US008631488B2（12）美国专利（10）专利号：US 8631488 B2Oz等人（45）专利日期：2014年1月14日 6813682 B2 1112004 Bress等人（54）系统和方法用于提供70

我使用ApachePDFBox和iText从pdf中提取文本。但这两个提取的文本都是完全无结构和混乱的

这是

但提取的文本是：

1111111111111111111111111111111111111111111111111111111111111111111111111111
US008631488B2
（12）美国专利（10）专利号：US 8631488 B2
Oz等人（45）专利日期：2014年1月14日
6813682 B2 1112004 Bress等人（54）系统和方法用于提供
7065644 B2 Daniell等人
2006年6月
供电期间的安全服务
Todd等人
7076690 Bl 7/2006
管理模式
7086089 B2 8/2006赫拉斯塔等人。
7184554 B2 2/2007 Freese
（75）发明人：阿美·奥兹，蓝色（IL）；Shlomo Touboul，
7283542 B2
10/2007 Mitchell
7353533 B2 Wright等人
Kefar Haim（IL）4/2008
Maufer等人 al.
7359983 Bl 4/2008
7360242 B2 4/2008 Syvanne
（73）受让人：卑尔根CUPP计算AS（编号）
7418253 B2 8/2008 Kavanagh
（续）
注意：根据任何免责声明本
（*）
专利的期限根据第35条延长或调整
外国专利文件
U.S.c.第154（b）节，截止日期为656天。wo 2000078008 2000年12月
适用。编号：12/535650
（21）
WO 2004030308 2004年4月
（22）提交日期：2009年8月4日
其他出版物
布里登 H、 John等人，“随身携带的硬件防火墙”，
（65）之前出版物数据
政府计算机新闻，位于 http://gcn.com！文章/
美国2010/0037321 2010年2月11日
2005/06/0 11A您随身携带的硬件防火墙。aspx？p~1，6月。
12005。

为什么会这样？如何解决这个问题？

PDF格式的设计目的是允许正确显示和打印文档，而不是允许对文本内容进行结构化访问。从PDF文档中提取文本类似于通过OCR软件运行打印页面。您可能不必识别标志符号并将其转换为字符，但必须估计文档的结构和逻辑文本流

如果您不使用简单的文本提取示例，那么iText和PDFBox（如果我没记错的话）都可以让您更详细地访问文档元素。在这种情况下，您既需要文本内容，也需要页面上的位置，以便能够以有意义的方式重建内容。

由于您既不提供有问题的PDF，也不提供调用PDFBox和iText的提取代码，如何知道发生这种情况的原因，更不用说如何解决它了？也就是说，与您的图像相比，文本看起来像是一个从上到下、从左到右、纯文本的文本提取结果。由于您正试图“提取”一个两列格式严重的文本，因此唯一可能的改进是识别这两列。它们的宽度可能需要硬编码，以便于使用。您希望得到什么样的输出？如果我没记错的话-是的，PDFBox和iText都提供了解析器框架，它们转发有关解析文本操作的更详细信息，不仅是文本，还包括位置和格式。