Encoding 每种语言最常用的编码是什么?

Encoding 每种语言最常用的编码是什么?,encoding,character-encoding,Encoding,Character Encoding,我正在开发一个纯文本阅读器应用程序。有时应用程序无法自动确定文件的编码,所以用户需要从编码列表中选择编码。如果此列表包含所有支持的编码,则它将太长。我想提供一个简化的列表,只包含每种语言的最常用编码 这是我所知道的某种关系: 繁体中文:Big5 简体中文:GB18030 日文:Shift JIS,EUC-JP 俄文:KOI8-R 如果您知道任何其他语言最常用的编码,请告诉我。我建议使用与浏览器相同的菜单结构。例如Firefox:查看->字符编码->更多编码->东亚->中文/日文/韩文。 (好

我正在开发一个纯文本阅读器应用程序。有时应用程序无法自动确定文件的编码,所以用户需要从编码列表中选择编码。如果此列表包含所有支持的编码,则它将太长。我想提供一个简化的列表,只包含每种语言的最常用编码

这是我所知道的某种关系:

  • 繁体中文:Big5
  • 简体中文:GB18030
  • 日文:Shift JIS,EUC-JP
  • 俄文:KOI8-R

如果您知道任何其他语言最常用的编码,请告诉我。

我建议使用与浏览器相同的菜单结构。例如Firefox:查看->字符编码->更多编码->东亚->中文/日文/韩文。 (好的,只要看一下就容易了)。在IE中查看->编码->更多

可能看起来太深和笨重,但它是非常熟悉的。而且不会删除有用的编码(例如,为什么俄文使用KOI8-R?如果我使用Windows 1251而不在列表中会发生什么?

是目前最常见的编码

也就是说,以下是按默认字符编码(“”)分组的Windows XP区域设置:

  • Big5:zh_HK,zh_MO,zh_TW
  • GBK(≈GB2312):中国,中国
  • Windows-31J(≈班次:ja_JP
  • windows-874(≈TIS-620,ISO-8859-11):第
  • windows-949(≈EUC-KR):ko_KR
  • windows-1250:学士学位、学士学位、学士学位、硕士学位、硕士学位、博士学位、硕士学位、硕士学位、硕士学位、硕士学位、硕士学位、硕士学位
  • windows-1251:az_-az、be_-BY、bg_-bg、kk_-KZ、ky_-KG、mk_-mk、mn_-mn、ru_-ru、sr_-BA、sr_-SP、tt_-ru、uk_-UA、uz_-uz
  • windows-1252(≈(ISO-8859-1-1-1)ISO-8859-1-1)ISO-8859-1-1-1-1-1-1-1-1-1-1-1):一个组织,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个社区,一个,一个社区,一个社区个人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、私人账户、,这是一个,是,它是,它,它是,它,它,它是,它是,它是,它是,它,它是,它,它,它是,它是,它是,它是,它是,它,它是,它是,它是,它是,它是,它是,它是,它,它是,它是,它是,它,它是,它,它是CA,它,它,它,它是,它,它,它,它,是CA,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,它,是ZA
  • windows-1253:el_GR
  • windows-1254(≈ISO-8859-9):az_az,tr_tr,uz_uz
  • windows-1255:他将
  • windows-1256:ar_AE、ar_BH、ar_DZ、ar_EG、ar_IQ、ar_JO、ar_KW、ar_LB、ar_LY、ar_MA、ar_OM、ar_QA、ar_SA、ar_SY、ar_TN、ar_YE、fa_IR、ps_AF、ur_PK
  • windows-1257:et_EE,lt_lt,lv_lv
  • windows-1258:vi_VN

  • UTF-8 95.7%
  • 1.8%
  • 1.0%
  • 0.4%
  • 0.3%
  • 0.2%
  • GBK 0.1%
  • EUC-KR 0.1%
  • ISO-8859-9 0.1%
  • Windows-1254 0.1%
  • EUC-JP 0.1%
  • Big5 0.1%

  • HTML5草案包含一个列表,反映了被视为常见的内容。但是,请注意,它应该基于用户区域设置,即浏览器或操作系统的语言,而不是文档的语言,因为后者通常是未知的,至少在您实际阅读文档之前,基于一些关于编码的假设


    我认为你实际上可以在一个流行的网络浏览器中复制编码列表。如果它在那里工作得很好,那么它在您的应用程序中可能工作得相当好。浏览器在列表及其顺序方面做了一些聪明的事情,但在实践中,我认为有一个短列表(如utf-8、utf-16、windows-1252)就足够了,也许还有一些其他的,然后是一个获取完整列表的选项。请注意,尽管utf-16实际上未被使用,对网页也没有用处,但它在纯文本文件中很常见。很重要的一点是要命名好编码,最好使用通用英语(或其他语言)名称,并在括号中加上IANA“charset”名称,就像浏览器一样。

    您是否有意省略Unicode系列?UTF-8、UTF-16和UTF-32的使用量肯定至少与您指定的相同。@TomvanderWoerdt是的,我需要一个区域编码列表,不包括Unicode编码。例如,GB18030是中华人民共和国国家标准,因此在中国大陆广泛使用。