记事本中的Unicode文件

记事本中的Unicode文件,unicode,unicode-string,Unicode,Unicode String,当我在记事本中将文本文件保存为“Unicode”时意味着什么?是Utf-8、Utf-16还是Utf-32?提前谢谢 所有这些格式都是“Unicode”。但Mac和Windows上的编辑器通常意味着UTF-8,因为它与代码128 IIRC以下的ASCII兼容。UTF-8可以通过使用一个特殊字符(这意味着后面的字节也属于同一个字符)来表示多于256个代码(适合8位的单个字节) 如果您查看终端中的输出,比如vi,如果您看到每两个字符之间有一个空格,那么您将查看UTF-16,因为每两个字节组成一个字符。

当我在记事本中将文本文件保存为“Unicode”时意味着什么?是Utf-8、Utf-16还是Utf-32?提前谢谢

所有这些格式都是“Unicode”。但Mac和Windows上的编辑器通常意味着UTF-8,因为它与代码128 IIRC以下的ASCII兼容。UTF-8可以通过使用一个特殊字符(这意味着后面的字节也属于同一个字符)来表示多于256个代码(适合8位的单个字节)


如果您查看终端中的输出,比如vi,如果您看到每两个字符之间有一个空格,那么您将查看UTF-16,因为每两个字节组成一个字符。您应该看到,字符之间没有空格,这表示UTF-8。

在记事本中,就像在Windows软件中一般一样,“Unicode”作为编码名称意味着UTF-16小端(UTF-16LE)。(我首先认为它不是真正的UTF-16,因为Notepad++将其识别为UCS-2,并将内容显示为垃圾,但通过BabelPad重新检查,我得出结论,Notepad甚至可以正确编码非BMP字符。)


类似地,“Unicode大端码”表示UTF-16大端码。“ANSI”表示系统的本机传统编码,例如西方版本的windows中的8位windows-1252编码。

可能是UTF-8,因为这是最常见的。@Linuxios,但记事本保存文件中还有另一个名为UTF-8的选项!!如何复制?@Cocoanetics的可能复制,如果编辑器的意思是UTF-8,那么为什么在记事本保存文件中有另一个名为UTF-8的选项呢?。。。因为窗户很奇怪。当Windows开始使用unicode时,他们首先采用了UTF16(见另一个答案),并称之为“unicode”。虽然从长远来看,UTF8开始在任何地方使用,并已成为事实上的标准。@Jukka K.Korpela。。。哪一个将涵盖最多的字符??Unicode或UTF-8?UTF-16和UTF-8包含完全相同的字符;它们只是Unicode的两种传输编码。Windows对UTF-16使用名称“Unicode”,只是因为它内部使用UTF-16表示Unicode。@Qaesar每个UTF都可以对所有Unicode进行编码。@Jukka K.Korpela,我正在处理一种称为库尔德语的印欧语系语言。为了更好地进行文本处理,我应该保存什么样的Unicode文件?Unicode还是UTF-8??它们是一样的吗?@Qaesar,任何合理的文本处理软件都可以读取UTF-16(Windows“Unicode”)和UTF-8,并在需要时转换为其内部表示形式。如果您编写自己的程序代码,只需要从库中选择合适的输入读取例程。所以这并不重要。Windows软件内部使用UTF-16。但是对于网页,应该使用UTF-8(浏览器和搜索引擎对UTF-16的支持很差)。