Encoding 每种语言最常用的编码是什么?
我正在开发一个纯文本阅读器应用程序。有时应用程序无法自动确定文件的编码,所以用户需要从编码列表中选择编码。如果此列表包含所有支持的编码,则它将太长。我想提供一个简化的列表,只包含每种语言的最常用编码 这是我所知道的某种关系:Encoding 每种语言最常用的编码是什么?,encoding,character-encoding,Encoding,Character Encoding,我正在开发一个纯文本阅读器应用程序。有时应用程序无法自动确定文件的编码,所以用户需要从编码列表中选择编码。如果此列表包含所有支持的编码,则它将太长。我想提供一个简化的列表,只包含每种语言的最常用编码 这是我所知道的某种关系: 繁体中文:Big5 简体中文:GB18030 日文:Shift JIS,EUC-JP 俄文:KOI8-R 如果您知道任何其他语言最常用的编码,请告诉我。我建议使用与浏览器相同的菜单结构。例如Firefox:查看->字符编码->更多编码->东亚->中文/日文/韩文。 (好
- 繁体中文:Big5
- 简体中文:GB18030
- 日文:Shift JIS,EUC-JP
- 俄文:KOI8-R
如果您知道任何其他语言最常用的编码,请告诉我。我建议使用与浏览器相同的菜单结构。例如Firefox:查看->字符编码->更多编码->东亚->中文/日文/韩文。 (好的,只要看一下就容易了)。在IE中查看->编码->更多 可能看起来太深和笨重,但它是非常熟悉的。而且不会删除有用的编码(例如,为什么俄文使用KOI8-R?如果我使用Windows 1251而不在列表中会发生什么?是目前最常见的编码 也就是说,以下是按默认字符编码(“”)分组的Windows XP区域设置:
- Big5:zh_HK,zh_MO,zh_TW
- GBK(≈GB2312):中国,中国
- Windows-31J(≈班次:ja_JP
- windows-874(≈TIS-620,ISO-8859-11):第
- windows-949(≈EUC-KR):ko_KR
- windows-1250:学士学位、学士学位、学士学位、硕士学位、硕士学位、博士学位、硕士学位、硕士学位、硕士学位、硕士学位、硕士学位、硕士学位
- windows-1251:az_-az、be_-BY、bg_-bg、kk_-KZ、ky_-KG、mk_-mk、mn_-mn、ru_-ru、sr_-BA、sr_-SP、tt_-ru、uk_-UA、uz_-uz
- windows-1252(≈(ISO-8859-1-1-1)ISO-8859-1-1)ISO-8859-1-1-1-1-1-1-1-1-1-1-1):一个组织,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个,一个社区,一个社区个人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、,这是一个,是,它是,它,它是,它,它,它是,它是,它是,它是,它,它是,它,它,它是,它是,它是,它是,它是,它,它是,它是,它是,它是,它是,它是,它是,它,它是,它是,它是,它,它是,它,它是CA,它,它,它,它是,它,它,它,它,是CA,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,是ZA
- windows-1253:el_GR
- windows-1254(≈ISO-8859-9):az_az,tr_tr,uz_uz
- windows-1255:他将
- windows-1256:ar_AE、ar_BH、ar_DZ、ar_EG、ar_IQ、ar_JO、ar_KW、ar_LB、ar_LY、ar_MA、ar_OM、ar_QA、ar_SA、ar_SY、ar_TN、ar_YE、fa_IR、ps_AF、ur_PK
- windows-1257:et_EE,lt_lt,lv_lv
- windows-1258:vi_VN
HTML5草案包含一个列表,反映了被视为常见的内容。但是,请注意,它应该基于用户区域设置,即浏览器或操作系统的语言,而不是文档的语言,因为后者通常是未知的,至少在您实际阅读文档之前,基于一些关于编码的假设
我认为你实际上可以在一个流行的网络浏览器中复制编码列表。如果它在那里工作得很好,那么它在您的应用程序中可能工作得相当好。浏览器在列表及其顺序方面做了一些聪明的事情,但在实践中,我认为有一个短列表(如utf-8、utf-16、windows-1252)就足够了,也许还有一些其他的,然后是一个获取完整列表的选项。请注意,尽管utf-16实际上未被使用,对网页也没有用处,但它在纯文本文件中很常见。很重要的一点是要命名好编码,最好使用通用英语(或其他语言)名称,并在括号中加上IANA“charset”名称,就像浏览器一样。您是否有意省略Unicode系列?UTF-8、UTF-16和UTF-32的使用量肯定至少与您指定的相同。@TomvanderWoerdt是的,我需要一个区域编码列表,不包括Unicode编码。例如,GB18030是中华人民共和国国家标准,因此在中国大陆广泛使用。