Java 使用apache TIKA解析时不显示日语字符_Java_Apache Tika

Java 使用apache TIKA解析时不显示日语字符

java

Java 使用apache TIKA解析时不显示日语字符,java,apache-tika,Java,Apache Tika,我使用以下代码从PDF中提取一些日文文本，但out-put文件不包含日文字符，而是包含一些垃圾字符。请帮我显示准确的日文字符 InputStream is = null; try { is = new FileInputStream("D:/jpn.pdf"); ContentHandler contenthandler = new BodyContentHandler(); Metadata metadata = new Metadata(); PDFParser pd

我使用以下代码从PDF中提取一些日文文本，但out-put文件不包含日文字符，而是包含一些垃圾字符。请帮我显示准确的日文字符

    InputStream is = null;
try {
  is = new FileInputStream("D:/jpn.pdf");
  ContentHandler contenthandler = new BodyContentHandler();
  Metadata metadata = new Metadata();
  PDFParser pdfparser = new PDFParser();
  pdfparser.parse(is, contenthandler, metadata, new ParseContext());
  System.out.println(contenthandler.toString());
}
catch (Exception e) {
  e.printStackTrace();
}

电流输出：（？\3Ïä=>Yc³；2+？Y/èN？）/SM]TZ

#U{6xM？1zT[Nmù6？K？？？（ñ

您是否确保您的控制台已正确配置为UTF8输出，并具有合适的字体？我应该如何检查？有没有想法将控制台更改为UTF-8，但仍然存在问题？我刚刚在谷歌上搜索了“示例日语PDF”，并尝试用Tika解析，但也失败了。可能最好是下载并上载一个小样本文件，以显示问题