Java 使用apache TIKA解析时不显示日语字符

Java 使用apache TIKA解析时不显示日语字符,java,apache-tika,Java,Apache Tika,我使用以下代码从PDF中提取一些日文文本,但out-put文件不包含日文字符,而是包含一些垃圾字符。请帮我显示准确的日文字符 InputStream is = null; try { is = new FileInputStream("D:/jpn.pdf"); ContentHandler contenthandler = new BodyContentHandler(); Metadata metadata = new Metadata(); PDFParser pd

我使用以下代码从PDF中提取一些日文文本,但out-put文件不包含日文字符,而是包含一些垃圾字符。请帮我显示准确的日文字符

    InputStream is = null;
try {
  is = new FileInputStream("D:/jpn.pdf");
  ContentHandler contenthandler = new BodyContentHandler();
  Metadata metadata = new Metadata();
  PDFParser pdfparser = new PDFParser();
  pdfparser.parse(is, contenthandler, metadata, new ParseContext());
  System.out.println(contenthandler.toString());
}
catch (Exception e) {
  e.printStackTrace();
}
电流输出:(?\3Ïä=>Yc³;2+?Y/èN?)/SM]TZ


#U{6xM?1zT[Nmù6?K???(ñ

您是否确保您的控制台已正确配置为UTF8输出,并具有合适的字体?我应该如何检查?有没有想法将控制台更改为UTF-8,但仍然存在问题?我刚刚在谷歌上搜索了“示例日语PDF”,并尝试用Tika解析,但也失败了。可能最好是下载并上载一个小样本文件,以显示问题