Java PDFBox提取的文本不包含国际（非英语）字符_Java_Internationalization_Pdfbox

Java PDFBox提取的文本不包含国际（非英语）字符

java internationalization

Java PDFBox提取的文本不包含国际（非英语）字符,java,internationalization,pdfbox,Java,Internationalization,Pdfbox,我正在使用ApachePDFBox从几个PDF文件中提取文本。这些文件使用波兰语，并且包含波兰语字符。不幸的是，当我打印提取的文本时，我总是得到？（问号）而不是那些字符。假设您提取的文本存储在字符串s中，我假设您当前正在使用它进行打印- System.out.println(s); 我建议您使用此代码段正确打印波兰字符- java.io.PrintStream p = new java.io.PrintStream(System.out,false,"UTF-8"); p.println(s)

我正在使用ApachePDFBox从几个PDF文件中提取文本。这些文件使用波兰语，并且包含波兰语字符。不幸的是，当我打印提取的文本时，我总是得到？（问号）而不是那些字符。

假设您提取的文本存储在字符串s中，我假设您当前正在使用它进行打印-

System.out.println(s);

我建议您使用此代码段正确打印波兰字符-

java.io.PrintStream p = new java.io.PrintStream(System.out,false,"UTF-8");
p.println(s);

这应该行得通吗？不会出现在打印文本中。

实际上，我使用的是System.out和log4j。然而，你的回答解决了我的问题！谢谢