Regex 正则表达式重复字

Regex 正则表达式重复字,regex,google-cloud-dataprep,Regex,Google Cloud Dataprep,我需要匹配而不是删除文本中所有重复的单词 例如:男式·T恤·衬衫·复古·T恤·衬衫·1990·深·黑·红·文本·深·黑·红·文本·X-Small 深·黑·红·文·深·黑·红·文在重复 我找不到任何一个正则表达式 请帮忙 另外,有时它只匹配一个单词:例如brown-brown,有时是我前面提到的模式。您可以使用正则表达式 \b\w+\b匹配任何单词字符1次或多次,前后都有单词边界 ?=.*\b\1\b确保在匹配后第一组中匹配的内容重复 您尝试了什么正则表达式以及它是如何工作的?在中,正则表达式似乎

我需要匹配而不是删除文本中所有重复的单词

例如:男式·T恤·衬衫·复古·T恤·衬衫·1990·深·黑·红·文本·深·黑·红·文本·X-Small

深·黑·红·文·深·黑·红·文在重复

我找不到任何一个正则表达式

请帮忙

另外,有时它只匹配一个单词:例如brown-brown,有时是我前面提到的模式。

您可以使用正则表达式

\b\w+\b匹配任何单词字符1次或多次,前后都有单词边界

?=.*\b\1\b确保在匹配后第一组中匹配的内容重复


您尝试了什么正则表达式以及它是如何工作的?在中,正则表达式似乎相当弱,因为它似乎不支持lookaround或backreference。我怀疑你能用它来得到你想要的正则表达式。考虑使用不同的工具或方法。嗨,谢谢你的反馈。关于如何找到这些重复项,您还有其他建议吗?不知道,我不知道您最终想要得到什么,我也不知道您的工作流程、数据等。我想用dataprep中的配方消除所有重复的单词。这实际上不起作用\w+与这些奇怪的中心点不匹配,因此在本例中\1只有一个单词深,其余的都在?=。@tobias_k Hum,不,你可以清楚地看到右侧的每一个正确匹配。但它将所有这些单词识别为单个重复单词,任意。*在中间,而不是单个重复序列。我不确定这是不是OP想要的。不是我的反对票。你可以加上这个微小的变化来解释完整的重复序列:\b[\w·]+·1\b你提供的这些正则表达式都不起作用。可能是因为这个收费。