Python 如何使用RegEx和just re.findall()函数计算字符串中的唯一单词?

Python 如何使用RegEx和just re.findall()函数计算字符串中的唯一单词?,python,regex,punctuation,Python,Regex,Punctuation,我是RE新手,我正在尝试找出如何在给定输入字符串的情况下返回字符串中所有唯一单词的计数。我经常遇到的问题是标点符号。我不希望我的代码将“dog”和“dog”这样的词分开处理。有没有办法避免这种情况?在正则表达式中使用\w+只匹配字母、数字和下划线。使用set排除重复项: len(set(re.findall(r'\w+', text, re.UNICODE))) 在正则表达式中使用\w+仅匹配字母、数字和下划线。使用set排除重复项: len(set(re.findall(r'\w+', te

我是RE新手,我正在尝试找出如何在给定输入字符串的情况下返回字符串中所有唯一单词的计数。我经常遇到的问题是标点符号。我不希望我的代码将“dog”和“dog”这样的词分开处理。有没有办法避免这种情况?

在正则表达式中使用
\w+
只匹配字母、数字和下划线。使用
set
排除重复项:

len(set(re.findall(r'\w+', text, re.UNICODE)))

在正则表达式中使用
\w+
仅匹配字母、数字和下划线。使用
set
排除重复项:

len(set(re.findall(r'\w+', text, re.UNICODE)))