Java 从UTF-8 base64编码识别日语

Java 从UTF-8 base64编码识别日语,java,perl,utf-8,smtp,Java,Perl,Utf 8,Smtp,我有一封SMTP电子邮件,它是日语的,部分是英语的。 电子邮件的主题以UTF-8 base64编码 主题:=?UTF-8?B?5Y2K5bCO5L2T6KO96YCg6KOF572u44OX44Os44OT44Ol44O844OO44O8= =?UTF-8?B?44OIIDOG5B6BEL56IL44OH44O844KR44O844GM5B344GE= 我如何用日语/汉语检测并将其解码为日语/汉语 我可以在Perl/Java/Python中实现这一点吗?例如,使用Java,您需要一个库来将bas

我有一封SMTP电子邮件,它是日语的,部分是英语的。 电子邮件的主题以UTF-8 base64编码

主题:=?UTF-8?B?5Y2K5bCO5L2T6KO96YCg6KOF572u44OX44Os44OT44Ol44O844OO44O8= =?UTF-8?B?44OIIDOG5B6BEL56IL44OH44O844KR44O844GM5B344GE=

我如何用日语/汉语检测并将其解码为日语/汉语


我可以在Perl/Java/Python中实现这一点吗?

例如,使用Java,您需要一个库来将base64字符串解码为二进制

然后是straigthforward:

  byte[] b = Base64.decodeBase64("5Y2K5bCO5L2T6KO96YCg6KOF572u44OX44Os44OT44Ol44O844OO44O8");
  String s = new String(b, "UTF-8");
  System.out.println(s);

它打印:
半導体製造装置プレビューノー(我不知道它是什么意思,但它看起来确实像日语)。

例如,对于Java,您需要一个库来将base64字符串解码为二进制

然后是straigthforward:

  byte[] b = Base64.decodeBase64("5Y2K5bCO5L2T6KO96YCg6KOF572u44OX44Os44OT44Ol44O844OO44O8");
  String s = new String(b, "UTF-8");
  System.out.println(s);

它打印:
半導体製造装置プレビューノー(我不知道它是什么意思,但它看起来确实像日语)。

您可能需要检查这些

由Mozilla开发的用于FireFox的字符集检测。源代码


是mozilla自动字符集检测算法源代码的java端口。

您可能需要检查这些

由Mozilla开发的用于FireFox的字符集检测。源代码


是mozilla自动字符集检测算法源代码的java端口。

这里有两个步骤。首先解码报头:

如果您有电子邮件,请使用高级电子邮件解析器,例如。将返回已解码的主题

如果您只有字符串,请使用:

第二步是找出语言。作为一个人,我已经知道这是日本人。这些字符是线索,它们只出现在日语中。如果您只需要这些,那么如果字符串匹配,则可能是日语


对于更通用的解决方案,可以使用一个语言检测库,如,,。

这里有两个步骤。首先解码报头:

如果您有电子邮件,请使用高级电子邮件解析器,例如。将返回已解码的主题

如果您只有字符串,请使用:

第二步是找出语言。作为一个人,我已经知道这是日本人。这些字符是线索,它们只出现在日语中。如果您只需要这些,那么如果字符串匹配,则可能是日语


对于更通用的解决方案,您可以使用一个语言检测库,如,。

如何从输出文本中识别代码中的语言?如果您想识别文本是日语还是英语,我建议查看。此代码实际上是打印出来的??????????????。我应该更改语言设置以便在eclipse中打印日语吗?我不知道它如何打印?????????。确保只解析=?UTF-8?B之间的字符串部分?和?=(主题中有两个部分)。我在eclipse的项目属性中将文本文件编码更改为UTF-8,它成功了。如何从输出文本中识别代码中的语言?如果您想识别文本是日语还是英语,我建议查看。此代码实际上是打印出来的??????????????。我应该更改语言设置以便在eclipse中打印日语吗?我不知道它如何打印?????????。确保只解析=?UTF-8?B之间的字符串部分?和?=(主题中有两个部分)。我在eclipse的项目属性中将文本文件编码更改为UTF-8,它成功了。+1是唯一真正回答这个问题的答案。该库的Perl端口在-1中提到,但它是错误的工具,该问题用于语言检测,不是编码检测。+1是真正回答这个问题的唯一答案。-1中提到了该库的Perl端口,但它是错误的工具,问题是语言检测,而不是编码检测。