为什么使用java的PDF文本提取器(如PDFBox、itext)从PDF中提取的文本是分散的、非结构化的?

为什么使用java的PDF文本提取器(如PDFBox、itext)从PDF中提取的文本是分散的、非结构化的?,java,pdf,itext,pdfbox,Java,Pdf,Itext,Pdfbox,我使用ApachePDFBox和iText从pdf中提取文本。但这两个提取的文本都是完全无结构和混乱的 这是 但提取的文本是: 1111111111111111111111111111111111111111111111111111111111111111111111111111 US008631488B2(12)美国专利(10)专利号:US 8631488 B2Oz等人(45)专利日期:2014年1月14日 6813682 B2 1112004 Bress等人(54)系统和方法 用于提供70

我使用ApachePDFBox和iText从pdf中提取文本。但这两个提取的文本都是完全无结构和混乱的

这是

但提取的文本是:

1111111111111111111111111111111111111111111111111111111111111111111111111111
US008631488B2
(12)美国专利(10)专利号:US 8631488 B2
Oz等人(45)专利日期:2014年1月14日
6813682 B2 1112004 Bress等人(54)系统和方法 用于提供
7065644 B2 Daniell等人
2006年6月
供电期间的安全服务
Todd等人
7076690 Bl 7/2006
管理模式
7086089 B2 8/2006赫拉斯塔等人。
7184554 B2 2/2007 Freese
(75)发明人:阿美·奥兹,蓝色 (IL);Shlomo Touboul,
7283542 B2
10/2007 Mitchell
7353533 B2 Wright等人
Kefar Haim(IL)4/2008
Maufer等人 al.
7359983 Bl 4/2008
7360242 B2 4/2008 Syvanne
(73) 受让人:卑尔根CUPP计算AS(编号)
7418253 B2 8/2008 Kavanagh
(续)
注意:根据任何免责声明 本
(*)
专利的期限根据第35条延长或调整
外国专利文件
U.S.c.第154(b)节,截止日期为656天。wo 2000078008 2000年12月
适用。编号:12/535650
(21)
WO 2004030308 2004年4月
(22)提交日期:2009年8月4日
其他出版物
布里登 H、 John等人,“随身携带的硬件防火墙”,
(65)之前 出版物数据
政府计算机新闻,位于 http://gcn.com!文章/
美国2010/0037321 2010年2月11日
2005/06/0 11A您随身携带的硬件防火墙。aspx?p~1,6月。
12005。


为什么会这样?如何解决这个问题?

PDF格式的设计目的是允许正确显示和打印文档,而不是允许对文本内容进行结构化访问。从PDF文档中提取文本类似于通过OCR软件运行打印页面。您可能不必识别标志符号并将其转换为字符,但必须估计文档的结构和逻辑文本流


如果您不使用简单的文本提取示例,那么iText和PDFBox(如果我没记错的话)都可以让您更详细地访问文档元素。在这种情况下,您既需要文本内容,也需要页面上的位置,以便能够以有意义的方式重建内容。

由于您既不提供有问题的PDF,也不提供调用PDFBox和iText的提取代码,如何知道发生这种情况的原因,更不用说如何解决它了?也就是说,与您的图像相比,文本看起来像是一个从上到下、从左到右、纯文本的文本提取结果。由于您正试图“提取”一个两列格式严重的文本,因此唯一可能的改进是识别这两列。它们的宽度可能需要硬编码,以便于使用。您希望得到什么样的输出?如果我没记错的话-是的,PDFBox和iText都提供了解析器框架,它们转发有关解析文本操作的更详细信息,不仅是文本,还包括位置和格式。