为什么这个Python正则表达式管道不能同时选择这两个unicode范围？_Python_Regex_Unicode

为什么这个Python正则表达式管道不能同时选择这两个unicode范围？

python regex unicode

为什么这个Python正则表达式管道不能同时选择这两个unicode范围？,python,regex,unicode,Python,Regex,Unicode,包含平假名和片假名unicode字符的示例字符串： myString = u"Eliminate ひらがな non-alphabetic カタカナ characters" 匹配两个范围的模式，根据：简单Python正则表达式替换函数 import re print re.sub(myPattern, "", myString) 返回： Eliminate non-alphabetic カタカナ characters 我能让它工作的唯一方法是，如果我分别使用这两个范围，一个接一个。是什

包含平假名和片假名unicode字符的示例字符串：

myString = u"Eliminate ひらがな non-alphabetic カタカナ characters"

匹配两个范围的模式，根据：

简单Python正则表达式替换函数

import re
print re.sub(myPattern, "", myString)

Eliminate  non-alphabetic カタカナ characters

我能让它工作的唯一方法是，如果我分别使用这两个范围，一个接一个。是什么阻止此正则表达式简单地拾取|管道的两侧？

您需要将范围合并到一个字符类中，否则它将匹配一个或另一个范围，而不是两个：

myPattern = u"[\u3041-\u309f\u30a0-\u30ff]*"

演示：

您需要将这些范围合并到一个字符类中，否则它将匹配一个或另一个范围，而不是同时匹配两个：

myPattern = u"[\u3041-\u309f\u30a0-\u30ff]*"

演示：

编辑也可以使用OR运算符组合这两个字符类

编辑您也可以将两个字符类与OR运算符组合起来

，但它将比单个类更慢（尽管不会太多），更详细。但它将比单个类更慢（尽管不会太多），更详细。

>>> myPattern = u"[\u3041-\u309f\u30a0-\u30ff]*"
>>> print re.sub(myPattern, "", u"Eliminate ひらがな non-alphabetic カタカナ characters")
Eliminate  non-alphabetic  characters

>>> myPattern = u"[\u3041-\u309f]|[\u30a0-\u30ff]"
>>> print re.sub(myPattern, "", myString)
Eliminate  non-alphabetic  characters
>>>