Unicode格式的国家（非阿拉伯语）数字？_Unicode

Unicode格式的国家（非阿拉伯语）数字？

unicode

Unicode格式的国家（非阿拉伯语）数字？,unicode,Unicode,我知道unicode包含世界上大多数Aphabes中的所有字符。但是数字呢？它们是否是unicode的一部分？我找不到直截了当的答案。谢谢是的，它们是-代码点，如您在decodeunicode.org上看到的顺便说一句，代码点0000-007E与ASCII相同（0-127，128+不再是ASCII），因此任何可以在ASCII中找到的东西都可以在Unicode中找到。它们与ASCII完全相同，因此，是的，它们位于U+0030到U+0039之间。是的，我认为是这样的：你可以自己回答这个问题：

我知道unicode包含世界上大多数Aphabes中的所有字符。但是数字呢？它们是否是unicode的一部分？我找不到直截了当的答案。谢谢

是的，它们是-代码点，如您在decodeunicode.org上看到的

顺便说一句，代码点0000-007E与ASCII相同（0-127，128+不再是ASCII），因此任何可以在ASCII中找到的东西都可以在Unicode中找到。

它们与ASCII完全相同，因此，是的，它们位于U+0030到U+0039之间。

是的，我认为是这样的：

你可以自己回答这个问题：如果它们不是Unicode的一部分，这会大大降低Unicode的有用性，你不这么认为吗

基本上，任何需要使用数字的文本都不能使用Unicode代码点表示。（这是假设您不会在一个文本中的不同字符编码之间来回切换：我不知道有哪种软件/编程语言支持这一点，这是有充分理由的。）

如果出现这样的问题，你非常需要阅读Joel Spolsky的文章。认真地去读吧。

如前所述，印度-阿拉伯数字（0,1，…，9）包含在Unicode中，从ASCII继承而来。如果你在谈论数字在其他语言中的表示，答案仍然是肯定的，它们也是Unicode的一部分

//numbers (0-9) in Malayalam (language spoken in Kerala, India)
൦ ൧ ൨ ൩ ൪ ൫ ൬ ൭ ൮ ൯  
//numbers (0-9) in Hindi (India's national language)
० १ २ ३ ४ ५ ६ ७ ८ ९

您可以在正则表达式中使用

\p{N}

或

\p{Number}

来匹配任何类型的

这（第3页）描述了马来语数字的Unicode码点。

简而言之：是的，当然。UNICODE中有三个类别，包含数字和数字的各种表示形式：

数字、十进制数字（）——例如阿拉伯语、泰语、德瓦那加里语数字
数字、字母（）–例如罗马数字
数字，其他（）–例如分数

请注意，unicode包含的数字远不止0-9。@Hans Kesting:事实上，例如下标和上标：，古希腊数字：以及其他。由于许多语言使用阿拉伯数字（例如俄语），我不确定它们是否来自ASCII。@Petr:正如我所说的，不能在中间文本中切换编码！因此，“取自ASCII”毫无意义。整个文本，每个字符，都必须用Unicode表示。实际上，你很可能正在使用软件，允许你“在一个文本中的不同字符编码之间来回切换”——ISO 2022基本上是一种元编码，允许你通过转义序列在子编码之间切换，所有常见的网络浏览器都支持它。@Konrad Rudolph:我想说的是，“取自ASCII”在这里的意思是“在设计阶段被合并到Unicode中”，而不是“在中间文本中切换编码”@Michael:很有趣，从来没有听说过。我想这是个好问题。让我们假设我们正在制作一个计算器，那么结果会是什么呢१२ + ७८ 与12+78相同虽然

\p{N}

或

\p{Number}

似乎适用于许多地区（马来语、印地语、阿拉伯语），但在某些类型上确实失败。例如，中国人和其他一些人失败了。

//numbers (0-9) in Malayalam (language spoken in Kerala, India)
൦ ൧ ൨ ൩ ൪ ൫ ൬ ൭ ൮ ൯  
//numbers (0-9) in Hindi (India's national language)
० १ २ ३ ४ ५ ६ ७ ८ ९