Unicode格式的国家(非阿拉伯语)数字?
我知道unicode包含世界上大多数Aphabes中的所有字符。但是数字呢?它们是否是unicode的一部分?我找不到直截了当的答案。 谢谢是的,它们是-代码点,如您在decodeunicode.org上看到的 顺便说一句,代码点0000-007E与ASCII相同(0-127,128+不再是ASCII),因此任何可以在ASCII中找到的东西都可以在Unicode中找到。它们与ASCII完全相同,因此,是的,它们位于U+0030到U+0039之间。是的,我认为是这样的:Unicode格式的国家(非阿拉伯语)数字?,unicode,Unicode,我知道unicode包含世界上大多数Aphabes中的所有字符。但是数字呢?它们是否是unicode的一部分?我找不到直截了当的答案。 谢谢是的,它们是-代码点,如您在decodeunicode.org上看到的 顺便说一句,代码点0000-007E与ASCII相同(0-127,128+不再是ASCII),因此任何可以在ASCII中找到的东西都可以在Unicode中找到。它们与ASCII完全相同,因此,是的,它们位于U+0030到U+0039之间。是的,我认为是这样的: 你可以自己回答这个问题:
你可以自己回答这个问题:如果它们不是Unicode的一部分,这会大大降低Unicode的有用性,你不这么认为吗 基本上,任何需要使用数字的文本都不能使用Unicode代码点表示。(这是假设您不会在一个文本中的不同字符编码之间来回切换:我不知道有哪种软件/编程语言支持这一点,这是有充分理由的。)
如果出现这样的问题,你非常需要阅读Joel Spolsky的文章。认真地去读吧。如前所述,印度-阿拉伯数字(0,1,…,9)包含在Unicode中,从ASCII继承而来。如果你在谈论数字在其他语言中的表示,答案仍然是肯定的,它们也是Unicode的一部分
//numbers (0-9) in Malayalam (language spoken in Kerala, India)
൦ ൧ ൨ ൩ ൪ ൫ ൬ ൭ ൮ ൯
//numbers (0-9) in Hindi (India's national language)
० १ २ ३ ४ ५ ६ ७ ८ ९
您可以在正则表达式中使用\p{N}
或\p{Number}
来匹配任何类型的
这(第3页)描述了马来语数字的Unicode码点。简而言之:是的,当然。UNICODE中有三个类别,包含数字和数字的各种表示形式:
- 数字、十进制数字()——例如阿拉伯语、泰语、德瓦那加里语数字李>
- 数字、字母()–例如罗马数字李>
- 数字,其他()–例如分数
\p{N}
或\p{Number}
似乎适用于许多地区(马来语、印地语、阿拉伯语),但在某些类型上确实失败。例如,中国人和其他一些人失败了。
//numbers (0-9) in Malayalam (language spoken in Kerala, India)
൦ ൧ ൨ ൩ ൪ ൫ ൬ ൭ ൮ ൯
//numbers (0-9) in Hindi (India's national language)
० १ २ ३ ४ ५ ६ ७ ८ ९