Java 使用ExtractText命令行工具提取错误的空格字符_Java_Pdf_Pdfbox

Java 使用ExtractText命令行工具提取错误的空格字符

java pdf

Java 使用ExtractText命令行工具提取错误的空格字符,java,pdf,pdfbox,Java,Pdf,Pdfbox,用于提取文件的命令是java-jar pdfbox-app-2.0.7.jar ExtractText-console DiffSzSpaceIssue.pdf。相同的输出为 This%is%one% This%is%two% This%is%three% This%is%four% 使用PDFDebugger检查pdf。我看到下面的条目表示有问题的“%” 在有Unicode但没有glyph的情况下，如何正确提取文本？我期待下面的输出，因为pdf中从未呈现“%”字符 This is one T

用于提取文件的命令是java-jar pdfbox-app-2.0.7.jar ExtractText-console DiffSzSpaceIssue.pdf。相同的输出为

This%is%one%
This%is%two%
This%is%three%
This%is%four%

使用PDFDebugger检查pdf。我看到下面的条目表示有问题的“%”

在有Unicode但没有glyph的情况下，如何正确提取文本？我期待下面的输出，因为pdf中从未呈现“%”字符

This is one
This is two
This is three
This is four

输入的pdf文件是。

显然，有时Unicode映射可能在某些pdf中出错，在这种情况下，需要删除Unicode映射并重新尝试提取。这个问题清楚地指出了映射错误的地方<代码>%->无（Unicode->Glyph）

什么不起作用？你在期待什么？什么是“有问题的”

？最重要的是，

DiffSzSpaceIssue.pdf

中有什么内容？为什么输出不正确？你有没有在编辑器中查看PDF文件以了解其中包含的内容？嘿@Jim，将问题编辑得更清楚。PDF看起来不错，因为字符“%”（不确定它来自何处）从未被PDF呈现，因为它没有对应的图形。我认为这更适合PDFBox支持，因为它很可能是一个bug。谢谢@JimGarrison，我将通过电子邮件发送邮件列表。只是想确定我是否在使用标志等方面出了问题。。在升级之前，在这种情况下，明智的检查通常是尝试从adobe reader复制并粘贴文本。我刚刚这么做了（使用AdobeReaderforAndroid，因为我目前只使用智能手机），还有那些“%”字符。因此，我们可以非常确定问题是在pdf中，而不是在pdfbox中。我们没有机会尝试它。但如果这不起作用，我会发布。

This is one
This is two
This is three
This is four