Encoding 将乱码的日语文本转换回可读的日语_Encoding_Character Encoding_Decoding_Cjk

Encoding 将乱码的日语文本转换回可读的日语

encoding character-encoding

Encoding 将乱码的日语文本转换回可读的日语,encoding,character-encoding,decoding,cjk,Encoding,Character Encoding,Decoding,Cjk,我有一个乱码日语文本文件，需要将其转换回可读的日语。问题是a）我不知道原始文本使用的是哪种编码，b）我不太了解编码和解码，甚至不知道如何将一种编码转换为另一种编码如果我对文件内容执行less，它将显示为如果我在文本编辑器中打开它，我会看到我在Mac电脑上，知道有一个命令叫iconv，但到目前为止，所有的解码尝试都失败了如何将其转换回可读的日语？您粘贴的文本似乎是UTF8的CP1252表示形式。换句话说，您的文本是UTF8 在许多Linux系统上，您可以执行“man cp1252”以获

我有一个乱码日语文本文件，需要将其转换回可读的日语。问题是a）我不知道原始文本使用的是哪种编码，b）我不太了解编码和解码，甚至不知道如何将一种编码转换为另一种编码

如果我对文件内容执行

less

，它将显示为


如果我在文本编辑器中打开它，我会看到

我在Mac电脑上，知道有一个命令叫iconv
，但到目前为止，所有的解码尝试都失败了
如何将其转换回可读的日语？
您粘贴的文本似乎是UTF8的CP1252表示形式。换句话说，您的文本是UTF8
在许多Linux系统上，您可以执行“man cp1252”以获取cp1252中定义的代码点。以下是我在粘贴的文本中看到的字符：
   343   227   E3     ã     LATIN SMALL LETTER A WITH TILDE
   202   130   82     ‚     SINGLE LOW-9 QUOTATION MARK
   223   147   93     “     LEFT DOUBLE QUOTATION MARK
   253   171   AB     «     LEFT-POINTING DOUBLE ANGLE QUOTATION MARK
   241   161   A1     ¡     INVERTED EXCLAMATION MARK
   257   175   AF     ¯     MACRON

您粘贴的文本：
ã<U+0081>“ã‚“ã<U+0081>«ã<U+0081>¡ã<U+0081>¯

我们可以要求perl这样打印：
perl -e 'print "\xE3\x81\x93\xE3\x82\x93\xE3\x81\xAB\xE3\x81\xA1\xE3\x81\xAF"'
こんにちは

您粘贴的文本似乎是UTF8的CP1252表示形式。换句话说，您的文本是UTF8
在许多Linux系统上，您可以执行“man cp1252”以获取cp1252中定义的代码点。以下是我在粘贴的文本中看到的字符：
   343   227   E3     ã     LATIN SMALL LETTER A WITH TILDE
   202   130   82     ‚     SINGLE LOW-9 QUOTATION MARK
   223   147   93     “     LEFT DOUBLE QUOTATION MARK
   253   171   AB     «     LEFT-POINTING DOUBLE ANGLE QUOTATION MARK
   241   161   A1     ¡     INVERTED EXCLAMATION MARK
   257   175   AF     ¯     MACRON

您粘贴的文本：
ã<U+0081>“ã‚“ã<U+0081>«ã<U+0081>¡ã<U+0081>¯

我们可以要求perl这样打印：
perl -e 'print "\xE3\x81\x93\xE3\x82\x93\xE3\x81\xAB\xE3\x81\xA1\xE3\x81\xAF"'
こんにちは

Mac上有许多文本编辑器，允许您将乱码文档转换为可读的格式/编码
例如，您可以使用BBEdit（演示模式/lite版本）来“使用编码重新打开…”，并选择将正确显示文件的编码。
在Mac上有许多文本编辑器，允许您将乱码文档转换为可读的格式/编码
例如，您可以使用BBEdit（演示模式/lite版本）来“使用编码重新打开…”然后选择将正确显示文件的编码。
如果出现乱码，则可能无法显示。文本文件是一个字节序列，表示整数，称为代码单元，由字符编码从字符集中的代码点生成。基本规则是使用写入文本的编码进行读取。为此，请显然，你需要元数据，它可能不会与文件中的字节一起存储。任何你不知道使用哪种编码的程序都只是猜测。请从文件中显示。EUC-JP→ 釃釩"祀磧祚如果是乱码，则可能不可能。文本文件是一个字节序列，表示整数，称为代码单元，由字符编码从字符集中的代码点生成。基本规则是使用编写文本时使用的编码进行读取。要做到这一点，显然需要元数据，而元数据可能不会与文件中的字节。任何不知道使用哪种编码的程序都只是猜测。请显示文件中的。EUC-JP→ 釃釩"祀磧祚