Pdfbox 识别PDF中的文本？_Pdfbox_Acrobat

Pdfbox 识别PDF中的文本？

Pdfbox 识别PDF中的文本？,pdfbox,acrobat,Pdfbox,Acrobat,我正在使用ApachePDFBox并逐页提取文本。但与此同时，我必须通过文本删除中间的删除我试过：但在我的大多数场景中，它都失败了我还尝试：有没有这样做的图书馆没有。贯穿文本的一行就是：一系列图形状态操作符，如moveTo，lineTo，stroke。您正在查看字体中的属性，例如font-weight或font-style，但是否通过文本绘制线条不是字体的属性。您需要解析行的内容并获取坐标；解析文本内容并获取坐标；然后比较行和文本的坐标，找出与查询匹配的文本。这可以通过iText完

我正在使用ApachePDFBox并逐页提取文本。但与此同时，我必须通过文本删除中间的删除

我试过：

但在我的大多数场景中，它都失败了

我还尝试：

有没有这样做的图书馆

没有。贯穿文本的一行就是：一系列图形状态操作符，如

moveTo

，

lineTo

，

stroke

。您正在查看字体中的属性，例如

font-weight

或

font-style

，但是否通过文本绘制线条不是字体的属性。您需要解析行的内容并获取坐标；解析文本内容并获取坐标；然后比较行和文本的坐标，找出与查询匹配的文本。这可以通过iText完成，但是我们不能免费提供代码。同样奇怪的是，您的问题完全是关于PdfBox的，但您将问题标记为iText问题。我将投票结束你的问题，因为堆栈溢出不能用于征求建议。有关更多信息，请参阅Stack Overflow常见问题解答。如果您仔细阅读了您尝试的答案，您会注意到它的代码专门显示了如何识别生成的穿透效果，就像它回答的问题随附的示例文档中所示。如果该代码在您的大多数场景中都失败了，那么其中的穿透效应很可能是以不同的方式生成的。那么，你为什么不检查一下你的场景，看看它是如何实现的呢？或者，如果您觉得无法完成此任务，请共享这些PDF，以便我们能够帮助您完成此任务？以下是一个答案，说明如何使用PDFBox获取线条/形状：我删除了iText标记，因为问题与iText无关。