Regex 正则表达式重复字_Regex_Google Cloud Dataprep

Regex 正则表达式重复字

regex

Regex 正则表达式重复字,regex,google-cloud-dataprep,Regex,Google Cloud Dataprep,我需要匹配而不是删除文本中所有重复的单词例如：男式·T恤·衬衫·复古·T恤·衬衫·1990·深·黑·红·文本·深·黑·红·文本·X-Small 深·黑·红·文·深·黑·红·文在重复我找不到任何一个正则表达式请帮忙另外，有时它只匹配一个单词：例如brown-brown，有时是我前面提到的模式。您可以使用正则表达式 \b\w+\b匹配任何单词字符1次或多次，前后都有单词边界？=.*\b\1\b确保在匹配后第一组中匹配的内容重复您尝试了什么正则表达式以及它是如何工作的？在中，正则表达式似乎

我需要匹配而不是删除文本中所有重复的单词

例如：男式·T恤·衬衫·复古·T恤·衬衫·1990·深·黑·红·文本·深·黑·红·文本·X-Small

深·黑·红·文·深·黑·红·文在重复

我找不到任何一个正则表达式

请帮忙

另外，有时它只匹配一个单词：例如brown-brown，有时是我前面提到的模式。

您可以使用正则表达式

\b\w+\b匹配任何单词字符1次或多次，前后都有单词边界

？=.*\b\1\b确保在匹配后第一组中匹配的内容重复

您尝试了什么正则表达式以及它是如何工作的？在中，正则表达式似乎相当弱，因为它似乎不支持lookaround或backreference。我怀疑你能用它来得到你想要的正则表达式。考虑使用不同的工具或方法。嗨，谢谢你的反馈。关于如何找到这些重复项，您还有其他建议吗？不知道，我不知道您最终想要得到什么，我也不知道您的工作流程、数据等。我想用dataprep中的配方消除所有重复的单词。这实际上不起作用\w+与这些奇怪的中心点不匹配，因此在本例中\1只有一个单词深，其余的都在？=。@tobias_k Hum，不，你可以清楚地看到右侧的每一个正确匹配。但它将所有这些单词识别为单个重复单词，任意。*在中间，而不是单个重复序列。我不确定这是不是OP想要的。不是我的反对票。你可以加上这个微小的变化来解释完整的重复序列：\b[\w·]+·1\b你提供的这些正则表达式都不起作用。可能是因为这个收费。