Python删除unicode字符串中的标点符号（撇号除外）_Python_Regex_Unicode_Punctuation

Python删除unicode字符串中的标点符号（撇号除外）

python regex unicode

Python删除unicode字符串中的标点符号（撇号除外）,python,regex,unicode,punctuation,Python,Regex,Unicode,Punctuation,我找到了这方面的几个主题，并找到了这个解决方案： sentence=re.sub(ur"[^\P{P}'|-]+",'',sentence) 这应该删除除“”之外的所有标点符号，问题是它也会删除句子中的所有其他标点符号例如： >>> sentence="warhol's art used many types of media, including hand drawing, painting, printmaking, photography, silk screenin

我找到了这方面的几个主题，并找到了这个解决方案：

sentence=re.sub(ur"[^\P{P}'|-]+",'',sentence)

这应该删除除“”之外的所有标点符号，问题是它也会删除句子中的所有其他标点符号

例如：

>>> sentence="warhol's art used many types of media, including hand drawing, painting, printmaking, photography, silk screening, sculpture, film, and music."
>>> sentence=re.sub(ur"[^\P{P}']+",'',sentence)
>>> print sentence
'

当然，我想要的是保持句子没有标点符号，“沃霍尔”保持原样

期望输出：

"warhol's art used many types of media including hand drawing painting printmaking photography silk screening sculpture film and music"
"austro-hungarian empire"

编辑：我也试过使用

tbl = dict.fromkeys(i for i in xrange(sys.maxunicode)
    if unicodedata.category(unichr(i)).startswith('P')) 
sentence = sentence.translate(tbl)

但这会去除每个标点符号，指定所有不希望删除的元素，即

\w

、

\d

、

\s

，等等。这就是

运算符在方括号中的含义。（匹配任何内容，但不匹配）

这适用于撇号，如何添加更多的异常？喜欢-或类似的东西？只需将

\-

添加到

ur.

中。它说除了“哦，你是对的；不是精通新的

regex

模块构造之外，它应该包含所有标点符号。

>>> import re
>>> sentence="warhol's art used many types of media, including hand drawing, painting, printmaking, photography, silk screening, sculpture, film, and music."
>>> print re.sub(ur"[^\w\d'\s]+",'',sentence)
warhol's art used many types of media including hand drawing painting printmaking photography silk screening sculpture film and music
>>>