Machine learning 检测推文中的连续重复字母

Machine learning 检测推文中的连续重复字母,machine-learning,feature-selection,Machine Learning,Feature Selection,我正在机器学习中进行特征选择,我想检测像“快乐、好、爱”这样的词,并将其替换为“快乐、好、爱”。我试着用正则表达式来替换连续重复的字母,但如果我这样做了,在爱情中效果很好,在上帝中失败了。我收集了一个英语单词列表,如book、cool、chilling、breeze等,但这个列表对于我的数据集是不够的。我需要参考资料才能继续,因为收集单词列表非常耗时。感谢您的回复。要获得您的参考,请使用regex()\1+ 使用类似于grep的方法来匹配单词列表中的单词(查看一个好的开始位置) 你应该得到一个连

我正在机器学习中进行特征选择,我想检测像“快乐、好、爱”这样的词,并将其替换为“快乐、好、爱”。我试着用正则表达式来替换连续重复的字母,但如果我这样做了,在爱情中效果很好,在上帝中失败了。我收集了一个英语单词列表,如bookcoolchillingbreeze等,但这个列表对于我的数据集是不够的。我需要参考资料才能继续,因为收集单词列表非常耗时。感谢您的回复。

要获得您的参考,请使用regex
()\1+
使用类似于
grep
的方法来匹配单词列表中的单词(查看一个好的开始位置)


你应该得到一个连续字母的单词列表,这样你就有了你的推荐信。

谢谢你的建议@AvinashRaj,但是同样的方法对breeeed->breed这样的单词不起作用,但是正则表达式将其转换为breed。还有像booook->book,breeeezzzze->breeze这样的词。你能帮我吗?那就很难用正则表达式了。regex如何知道这是一个完美的单词,而这不是一个完美的单词..我理解,但除了手动收集单词之外,你能给我建议其他方法吗?只要自己找一本可以使用的单词词典,或者编写/找到一个在维基百科上运行的自动收集单词的爬虫。