Encoding 将乱码的日语文本转换回可读的日语

Encoding 将乱码的日语文本转换回可读的日语,encoding,character-encoding,decoding,cjk,Encoding,Character Encoding,Decoding,Cjk,我有一个乱码日语文本文件,需要将其转换回可读的日语。问题是a)我不知道原始文本使用的是哪种编码,b)我不太了解编码和解码,甚至不知道如何将一种编码转换为另一种编码 如果我对文件内容执行less,它将显示为 如果我在文本编辑器中打开它,我会看到 我在Mac电脑上,知道有一个命令叫iconv,但到目前为止,所有的解码尝试都失败了 如何将其转换回可读的日语?您粘贴的文本似乎是UTF8的CP1252表示形式。换句话说,您的文本是UTF8 在许多Linux系统上,您可以执行“man cp1252”以获

我有一个乱码日语文本文件,需要将其转换回可读的日语。问题是a)我不知道原始文本使用的是哪种编码,b)我不太了解编码和解码,甚至不知道如何将一种编码转换为另一种编码

如果我对文件内容执行
less
,它将显示为

如果我在文本编辑器中打开它,我会看到

我在Mac电脑上,知道有一个命令叫
iconv
,但到目前为止,所有的解码尝试都失败了


如何将其转换回可读的日语?

您粘贴的文本似乎是UTF8的CP1252表示形式。换句话说,您的文本是UTF8

在许多Linux系统上,您可以执行“man cp1252”以获取cp1252中定义的代码点。以下是我在粘贴的文本中看到的字符:

   343   227   E3     ã     LATIN SMALL LETTER A WITH TILDE
   202   130   82     ‚     SINGLE LOW-9 QUOTATION MARK
   223   147   93     “     LEFT DOUBLE QUOTATION MARK
   253   171   AB     «     LEFT-POINTING DOUBLE ANGLE QUOTATION MARK
   241   161   A1     ¡     INVERTED EXCLAMATION MARK
   257   175   AF     ¯     MACRON
您粘贴的文本:

ã<U+0081>“ã‚“ã<U+0081>«ã<U+0081>¡ã<U+0081>¯
我们可以要求perl这样打印:

perl -e 'print "\xE3\x81\x93\xE3\x82\x93\xE3\x81\xAB\xE3\x81\xA1\xE3\x81\xAF"'
こんにちは

您粘贴的文本似乎是UTF8的CP1252表示形式。换句话说,您的文本是UTF8

在许多Linux系统上,您可以执行“man cp1252”以获取cp1252中定义的代码点。以下是我在粘贴的文本中看到的字符:

   343   227   E3     ã     LATIN SMALL LETTER A WITH TILDE
   202   130   82     ‚     SINGLE LOW-9 QUOTATION MARK
   223   147   93     “     LEFT DOUBLE QUOTATION MARK
   253   171   AB     «     LEFT-POINTING DOUBLE ANGLE QUOTATION MARK
   241   161   A1     ¡     INVERTED EXCLAMATION MARK
   257   175   AF     ¯     MACRON
您粘贴的文本:

ã<U+0081>“ã‚“ã<U+0081>«ã<U+0081>¡ã<U+0081>¯
我们可以要求perl这样打印:

perl -e 'print "\xE3\x81\x93\xE3\x82\x93\xE3\x81\xAB\xE3\x81\xA1\xE3\x81\xAF"'
こんにちは

Mac上有许多文本编辑器,允许您将乱码文档转换为可读的格式/编码


例如,您可以使用BBEdit(演示模式/lite版本)来“使用编码重新打开…”,并选择将正确显示文件的编码。

在Mac上有许多文本编辑器,允许您将乱码文档转换为可读的格式/编码


例如,您可以使用BBEdit(演示模式/lite版本)来“使用编码重新打开…”然后选择将正确显示文件的编码。

如果出现乱码,则可能无法显示。文本文件是一个字节序列,表示整数,称为代码单元,由字符编码从字符集中的代码点生成。基本规则是使用写入文本的编码进行读取。为此,请显然,你需要元数据,它可能不会与文件中的字节一起存储。任何你不知道使用哪种编码的程序都只是猜测。请从文件中显示。EUC-JP→ 釃釩"祀磧祚如果是乱码,则可能不可能。文本文件是一个字节序列,表示整数,称为代码单元,由字符编码从字符集中的代码点生成。基本规则是使用编写文本时使用的编码进行读取。要做到这一点,显然需要元数据,而元数据可能不会与文件中的字节。任何不知道使用哪种编码的程序都只是猜测。请显示文件中的。EUC-JP→ 釃釩"祀磧祚