Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/xml/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 使用ExtractText命令行工具提取错误的空格字符_Java_Pdf_Pdfbox - Fatal编程技术网

Java 使用ExtractText命令行工具提取错误的空格字符

Java 使用ExtractText命令行工具提取错误的空格字符,java,pdf,pdfbox,Java,Pdf,Pdfbox,用于提取文件的命令是java-jar pdfbox-app-2.0.7.jar ExtractText-console DiffSzSpaceIssue.pdf。相同的输出为 This%is%one% This%is%two% This%is%three% This%is%four% 使用PDFDebugger检查pdf。我看到下面的条目表示有问题的“%” 在有Unicode但没有glyph的情况下,如何正确提取文本?我期待下面的输出,因为pdf中从未呈现“%”字符 This is one T

用于提取文件的命令是java-jar pdfbox-app-2.0.7.jar ExtractText-console DiffSzSpaceIssue.pdf。相同的输出为

This%is%one%
This%is%two%
This%is%three%
This%is%four%
使用PDFDebugger检查pdf。我看到下面的条目表示有问题的“%”

在有Unicode但没有glyph的情况下,如何正确提取文本?我期待下面的输出,因为pdf中从未呈现“%”字符

This is one
This is two
This is three
This is four

输入的pdf文件是。

显然,有时Unicode映射可能在某些pdf中出错,在这种情况下,需要删除Unicode映射并重新尝试提取。这个问题清楚地指出了映射错误的地方<代码>%->无(Unicode->Glyph)

什么不起作用?你在期待什么?什么是“有问题的”
%
?最重要的是,
DiffSzSpaceIssue.pdf
中有什么内容?为什么输出不正确?你有没有在编辑器中查看PDF文件以了解其中包含的内容?嘿@Jim,将问题编辑得更清楚。PDF看起来不错,因为字符“%”(不确定它来自何处)从未被PDF呈现,因为它没有对应的图形。我认为这更适合PDFBox支持,因为它很可能是一个bug。谢谢@JimGarrison,我将通过电子邮件发送邮件列表。只是想确定我是否在使用标志等方面出了问题。。在升级之前,在这种情况下,明智的检查通常是尝试从adobe reader复制并粘贴文本。我刚刚这么做了(使用AdobeReaderforAndroid,因为我目前只使用智能手机),还有那些“%”字符。因此,我们可以非常确定问题是在pdf中,而不是在pdfbox中。我们没有机会尝试它。但如果这不起作用,我会发布。
This is one
This is two
This is three
This is four