Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/asp.net/29.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
印地语重音字符的unicode范围是多少?_Unicode_Utf 8_Diacritics_Hindi - Fatal编程技术网

印地语重音字符的unicode范围是多少?

印地语重音字符的unicode范围是多少?,unicode,utf-8,diacritics,hindi,Unicode,Utf 8,Diacritics,Hindi,我试图收集印地语字符集中所有类似“o”的形状的Unicode列表。事实上,使用单独字符表示重音的任何字符(在任何语言中)的列表会更好 我打算在RegExp中使用这个unicode列表 我一直试图通过在输入文本字段中输出字符范围来编辑字符范围列表,但编辑此文本会导致奇怪的问题(键盘光标未放置在正确的字符上,选择突然消失/扭曲错误…换句话说…印地语地狱!) 我也用Notepad++尝试过,但尽管它的响应速度更快,但最终还是像在Flash Player文本字段中一样对我产生了影响。这似乎特别是在删除[

我试图收集印地语字符集中所有类似“o”的形状的Unicode列表。事实上,使用单独字符表示重音的任何字符(在任何语言中)的列表会更好

我打算在RegExp中使用这个unicode列表

我一直试图通过在输入文本字段中输出字符范围来编辑字符范围列表,但编辑此文本会导致奇怪的问题(键盘光标未放置在正确的字符上,选择突然消失/扭曲错误…换句话说…印地语地狱!)

我也用Notepad++尝试过,但尽管它的响应速度更快,但最终还是像在Flash Player文本字段中一样对我产生了影响。这似乎特别是在删除[]块(空?)字符时发生。其中一些会引发奇怪的行为

不管怎样,我想要的只是一份口音列表。 下图中有一些示例(但我需要所有口音):


谢谢

您可以在此处找到包含按语言分组的unicode范围列表的pdf:


对于印地语,您可能需要或。

以下是Devanagari组合标记的字符类:

[\u901\u902\u903\u93c\u93e\u93f\u940\u941\u942\u943
 \u944\u945\u946\u947\u948\u949\u94a\u94b\u94c\u94d
 \u951\u952\u953\u954\u962\u963]

这只是基本的Devanagari块(不是Devanagari扩展的)。

如果您想要完整的集合(适用于所有语言),可以有问题地完成。 从Unicode日期文件开始,如TR-44()所述

您可以使用规范\u组合\u类字段(请参见)来过滤所需的确切字符。 再精确不过了,因为“口音”有点模糊:-) 您甚至可能还需要查看General_类别以获得正确的过滤器(并排除某些标记、符号或标点符号)

而这样做的脚本肯定比试图搞乱文本编辑器要好。 组合字符的特征之一是它们组合:-)
因此,在使用适当的Unicode正则表达式的语言中,您可能会得到各种令人费解的结果(如::-)

,这将是
[\p{IsDevanagari}&&\p{M}]
。。。不幸的是,我认为只有Java(也许还有Perl)支持这个功能。@Porges PCRE在php中使用。因此,如果Perl是正确的,那么php也是正确的。另外:@kirilloid:PCRE不支持字符类相交,它也不支持Perl所做的一切。(无论如何,您都可以使用“向前看”来模拟交叉口。)但是。。。这并不重要,因为他正在使用AS.:)不过,这是有用的信息。类似的东西在AS中很有用,只需将这些字符收集到一个XML文件中并将其分发给世界:)稍微精简一点:
[\u901-\u903\u93c\u93e-\u949\u94a-\u94d\u951-\u954\u962\u963]