Regex 在“\p{name}”中可以指定哪些“unicode组”和“块范围”?
可以在字符类Regex 在“\p{name}”中可以指定哪些“unicode组”和“块范围”?,regex,pcre,character-properties,Regex,Pcre,Character Properties,可以在字符类\p{name}中指定的unicode组和块范围是什么 e、 g 姓名和说明列表在哪里?有列表 您还可以询问PCRE本身的以下问题: Unicode字符集被定义为属于某些 脚本。其中一个集合中的字符可以使用 脚本名。例如: \p{Greek} \P{Han} 那些不属于已识别脚本的部分将集中在一起 作为“普通”。当前脚本列表为: 阿拉伯语、亚美尼亚语、阿维斯坦语、巴厘语、巴穆语、孟加拉语、波波莫夫语、, 盲文、布吉尼斯语、布希德语、加拿大土著语、加勒比语、湛江语、, 切罗基语、普通
\p{name}
中指定的unicode组
和块范围
是什么
e、 g
姓名和说明列表在哪里?有列表
您还可以询问PCRE本身的以下问题:
Unicode字符集被定义为属于某些
脚本。其中一个集合中的字符可以使用
脚本名。例如:
\p{Greek}
\P{Han}
那些不属于已识别脚本的部分将集中在一起
作为“普通”。当前脚本列表为:
阿拉伯语、亚美尼亚语、阿维斯坦语、巴厘语、巴穆语、孟加拉语、波波莫夫语、,
盲文、布吉尼斯语、布希德语、加拿大土著语、加勒比语、湛江语、,
切罗基语、普通语、科普特语、楔形语、塞浦路斯语、西里尔语、德塞特语、,
德瓦纳加里、埃及象形文字、埃塞俄比亚语、格鲁吉亚语、,
Glagolitic、哥特式、希腊语、古吉拉特语、古尔木基语、汉语、韩语、,
哈努诺语,希伯来语,平假名,帝王亚拉姆语,继承,
巴列维铭文、帕提亚铭文、爪哇语、凯西语、,
卡纳达语、片假名、卡亚胡语、哈罗什语、高棉语、老挝语、拉丁语、莱普查语、,
Limbu、Linear_B、Lisu、Lycian、Lydian、Malayalam、Meetei_Mayek、,
蒙古语、缅甸语、新泰略语、恩科语、奥格姆语、古斜体语、古波斯语、,
旧南阿拉伯语、旧突厥语、Ol_Chiki、Oriya、Osmanya、Phags_Pa、,
腓尼基人、瑞昌人、符文人、撒玛利亚人、索拉什特拉人、沙维亚人、僧伽罗人、,
圣丹内斯语、Syloti_Nagri语、叙利亚语、塔加洛语、塔班瓦语、泰卢语、,
泰晤士河、泰米尔、泰卢固、塔阿纳、泰国、西藏、,
蒂菲纳,乌加里特,瓦伊,伊
在这里,您可以找到可以在括号中指定的Unicode字符属性的列表: 或者您可以匹配Unicode块或脚本,您可以在此处找到相关信息:
而且。我刚才还找到了相同的链接:)。不过谢谢。感谢您指出
手册页
没有发现Unicode字符属性
部分。不幸的是,该列表是错误的Adlam
toZanabazar_Square
丢失。@Akiva:也许你应该接受这个问题,因为PCRE在Unicode支持方面落后了(或者没有更新他们的文档)。@Joey我一直在寻找一种不容易出现人为错误的发现方法。甚至像这样的东西给了我一些关于QRegularExpression
的误报,更不用说regex101
。我认为理想的方法是为各种相关的实现转储源文件,因为不同的语言/引擎之间会有很大的差异。
\p{Greek}
\P{Han}