Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/20.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
为什么这个Python正则表达式管道不能同时选择这两个unicode范围?_Python_Regex_Unicode - Fatal编程技术网

为什么这个Python正则表达式管道不能同时选择这两个unicode范围?

为什么这个Python正则表达式管道不能同时选择这两个unicode范围?,python,regex,unicode,Python,Regex,Unicode,包含平假名和片假名unicode字符的示例字符串: myString = u"Eliminate ひらがな non-alphabetic カタカナ characters" 匹配两个范围的模式,根据: 简单Python正则表达式替换函数 import re print re.sub(myPattern, "", myString) 返回: Eliminate non-alphabetic カタカナ characters 我能让它工作的唯一方法是,如果我分别使用这两个范围,一个接一个。是什

包含平假名和片假名unicode字符的示例字符串:

myString = u"Eliminate ひらがな non-alphabetic カタカナ characters"
匹配两个范围的模式,根据:

简单Python正则表达式替换函数

import re
print re.sub(myPattern, "", myString)
返回:

Eliminate  non-alphabetic カタカナ characters

我能让它工作的唯一方法是,如果我分别使用这两个范围,一个接一个。是什么阻止此正则表达式简单地拾取|管道的两侧?

您需要将范围合并到一个字符类中,否则它将匹配一个或另一个范围,而不是两个:

myPattern = u"[\u3041-\u309f\u30a0-\u30ff]*"
演示:


您需要将这些范围合并到一个字符类中,否则它将匹配一个或另一个范围,而不是同时匹配两个:

myPattern = u"[\u3041-\u309f\u30a0-\u30ff]*"
演示:

编辑也可以使用OR运算符组合这两个字符类

编辑您也可以将两个字符类与OR运算符组合起来

,但它将比单个类更慢(尽管不会太多),更详细。但它将比单个类更慢(尽管不会太多),更详细。
>>> myPattern = u"[\u3041-\u309f\u30a0-\u30ff]*"
>>> print re.sub(myPattern, "", u"Eliminate ひらがな non-alphabetic カタカナ characters")
Eliminate  non-alphabetic  characters
>>> myPattern = u"[\u3041-\u309f]|[\u30a0-\u30ff]"
>>> print re.sub(myPattern, "", myString)
Eliminate  non-alphabetic  characters
>>>