Pdfbox 识别PDF中的文本?

Pdfbox 识别PDF中的文本?,pdfbox,acrobat,Pdfbox,Acrobat,我正在使用ApachePDFBox并逐页提取文本。但与此同时,我必须通过文本删除中间的删除 我试过: 但在我的大多数场景中,它都失败了 我还尝试: 有没有这样做的图书馆 没有。贯穿文本的一行就是:一系列图形状态操作符,如moveTo,lineTo,stroke。您正在查看字体中的属性,例如font-weight或font-style,但是否通过文本绘制线条不是字体的属性。您需要解析行的内容并获取坐标;解析文本内容并获取坐标;然后比较行和文本的坐标,找出与查询匹配的文本。这可以通过iText完

我正在使用ApachePDFBox并逐页提取文本。但与此同时,我必须通过文本删除中间的删除

我试过:

但在我的大多数场景中,它都失败了

我还尝试:


有没有这样做的图书馆

没有。贯穿文本的一行就是:一系列图形状态操作符,如
moveTo
lineTo
stroke
。您正在查看字体中的属性,例如
font-weight
font-style
,但是否通过文本绘制线条不是字体的属性。您需要解析行的内容并获取坐标;解析文本内容并获取坐标;然后比较行和文本的坐标,找出与查询匹配的文本。这可以通过iText完成,但是我们不能免费提供代码。同样奇怪的是,您的问题完全是关于PdfBox的,但您将问题标记为iText问题。我将投票结束你的问题,因为堆栈溢出不能用于征求建议。有关更多信息,请参阅Stack Overflow常见问题解答。如果您仔细阅读了您尝试的答案,您会注意到它的代码专门显示了如何识别生成的穿透效果,就像它回答的问题随附的示例文档中所示。如果该代码在您的大多数场景中都失败了,那么其中的穿透效应很可能是以不同的方式生成的。那么,你为什么不检查一下你的场景,看看它是如何实现的呢?或者,如果您觉得无法完成此任务,请共享这些PDF,以便我们能够帮助您完成此任务?以下是一个答案,说明如何使用PDFBox获取线条/形状:我删除了iText标记,因为问题与iText无关。