Regex 用于匹配单词的Groovy正则表达式(即使带有重音字母)

Regex 用于匹配单词的Groovy正则表达式(即使带有重音字母),regex,groovy,diacritics,Regex,Groovy,Diacritics,我正在尝试标记任何文本中的单词,例如: Ça me plaît. 应该标记为“ça,me,plaît”。 为此,我想清除所有特殊字符中的字符串,然后在空白处拆分它。使用此代码: text = text.toLowerCase().replaceAll(/^\w/, ' ') def tokens = text.split(" ") 我明白了 a me pla t 这根本没用。 我需要什么正则表达式 谢谢! Mulone您可以使用\S(大写字母S)而不是\w\S匹配所有非白色字符,而\S(非

我正在尝试标记任何文本中的单词,例如:

Ça me plaît.
应该标记为“ça,me,plaît”。 为此,我想清除所有特殊字符中的字符串,然后在空白处拆分它。使用此代码:

text = text.toLowerCase().replaceAll(/^\w/, ' ')
def tokens = text.split(" ")
我明白了

a me pla t
这根本没用。 我需要什么正则表达式

谢谢! Mulone

您可以使用\S(大写字母S)而不是\w\S匹配所有非白色字符,而\S(非大写)匹配所有白色字符

因此,您将拥有

text = text.toLowerCase().replaceAll(/^\S/, ' ')
def tokens = text.split(" ")
这似乎对我有效(至少在这种情况下):


实际上,对于\S,正则表达式不过滤点(和任何其他特殊字符)。有一个正则表达式来表示任何欧洲字母表中的字母吗?
'Ça me plaît.'.toLowerCase().replaceAll( /[^\p{javaLowerCase}]/, ' ').split( ' ' )