什么';unicode有什么大不了的?

什么';unicode有什么大不了的?,unicode,Unicode,我听过很多人谈论一些新版本的语言现在是如何支持unicode的,unicode是一项多么大的成就。支持新角色集有什么大不了的。这似乎是一种很少被使用的东西,但人们经常提到它。人们使用甚至关心unicode的好处或原因是什么?如果你关心国际化(即世界其他地区)科学符号等,你会关心unicode。Unicode很难处理,因为我们对ASCII的支持根深蒂固。但现在,现代系统支持Unicode,没有理由不将您的东西编码为UTF-8。我知道我在出版界工作,很长一段时间我们不得不做一些黑客的事情,比如插入公

我听过很多人谈论一些新版本的语言现在是如何支持unicode的,unicode是一项多么大的成就。支持新角色集有什么大不了的。这似乎是一种很少被使用的东西,但人们经常提到它。人们使用甚至关心unicode的好处或原因是什么?

如果你关心国际化(即世界其他地区)科学符号等,你会关心unicode。Unicode很难处理,因为我们对ASCII的支持根深蒂固。但现在,现代系统支持Unicode,没有理由不将您的东西编码为UTF-8。我知道我在出版界工作,很长一段时间我们不得不做一些黑客的事情,比如插入公式的gif图像等。现在我们可以直接输入unicode,人们可以搜索、复制和粘贴等,我们的代码可以通过使用unicode正则表达式等来处理它。

unicode可以支持世界上几乎任何语言。如果没有这种编码,您将不得不担心为不同的语言选择正确的编码,这非常麻烦(更不用说在同一个文本块中混合多种语言了,呃)


一种语言中的Unicode支持意味着该语言的本机字符/字符串类型也支持所有这些语言,而用户在进行计算时不必担心字符编码或多字节字符等问题。当然,在进行I/O操作时,仍然需要确认字符编码,但用一种合理的编码进行字符串处理会有很大帮助。

如果您希望与母语不是英语的人(英国或美国变体)交流,您会在意的。很多

正如大家所说-支持世界上所有其他语言和地区使用的所有字符集和格式。开源和商业开发者都喜欢这一点,因为它将潜在的用户基础增加了20倍左右(并且还在增长)。

编程语言被用来制作软件

软件用于解决人类面临的问题

生产软件是有成本的

为人类解决问题的软件产生价值。根据软件开发人员的业务模式,该价值可以以利润或成本降低的形式表示。价值的表达方式与本次讨论的目的无关;与此相关的是产生了净值

世界上有70亿人。他们中有相当一部分人最喜欢阅读非拉丁字母书写的文本

如果开发人员能够轻松地操作用非拉丁字母书写的文本,那么该软件可以更有效地解决70亿不使用拉丁字母的人中的一小部分人的问题

因此,支持非拉丁字符集的编程语言降低了软件开发人员的成本,从而使他们能够以更低的成本为更多的人解决更多的问题,从而产生更多的价值

Unicode是处理非拉丁文本的事实标准

因此,Unicode对于编程语言的设计和实现非常重要


作为编程语言设计师,我们的目标是创造能产生最大价值的工具。支持Unicode是一种简单的方法,可以极大地扩大软件可以解决的实际人类问题的范围和范围。

一开始,有256个可能的字符和许多不同的代码页来表示它们。它变得一团糟。支持多种语言和多种字符集成了程序员的噩梦

然后形成了。它创建了一个标准,允许一个256 x 256=65536个字符(加上它们的组合)的单个字符集包含世界上几乎所有的语言

最大的优点是单个字符串可能包含多种语言。这不是一件小事

自从Windows 2000以来,Unicode现在是Windows中使用的本机字符规范。它也可以作为HTML和网站上的字符集


如果您的应用程序不支持Unicode,或者不打算支持Unicode,那么您的应用程序将落后只是时间问题。

Unicode是一件好事,因为它消除了字符集问题,并且减少了一件需要担心的事情。即使你的软件从未离开过美国,你也永远不知道什么时候会遇到一个文件名或文本字段中有一个奇怪的字符,Unicode让你生活在无知中

有能力有什么大不了的 以支持新的字符集

Unicode不仅仅是“一个新的字符集”。正是角色集消除了思考角色集的需要

您希望如何编写包含欧元符号的字符串

  • “\x80”
    “\x88”
    “\x9c”
    “\x9f”
    “\xa2\xe3”
    ”\xa2\xe6”
    “\xa3\xe1”
    “\xa4”
    “\xa9\xa1”
    “\xd9\xe6”
  • “\u20AC”
    ,在每个语言环境中,在每个操作系统上

像Daisetsu这样的美国人可能不在乎Unicode,但世界其他地区使用的拉丁字母略多于26个,而且Unicode被大量使用

过去我们有数百个乱七八糟的字符集,仅仅是因为美国计算机科学家认为“为什么会有人想使用超过26个拉丁字符,就像我们在英语中使用的那样?”


狭隘是一件坏事。

即使是英式英语也需要非ASCII字符-磅符号需要Win1252(“扩展ANSI”我过去称之为)字符集。“很少使用”?方式