Machine learning 检测推文中的连续重复字母_Machine Learning_Feature Selection

Machine learning 检测推文中的连续重复字母

machine-learning

Machine learning 检测推文中的连续重复字母,machine-learning,feature-selection,Machine Learning,Feature Selection,我正在机器学习中进行特征选择，我想检测像“快乐、好、爱”这样的词，并将其替换为“快乐、好、爱”。我试着用正则表达式来替换连续重复的字母，但如果我这样做了，在爱情中效果很好，在上帝中失败了。我收集了一个英语单词列表，如book、cool、chilling、breeze等，但这个列表对于我的数据集是不够的。我需要参考资料才能继续，因为收集单词列表非常耗时。感谢您的回复。要获得您的参考，请使用regex（）\1+ 使用类似于grep的方法来匹配单词列表中的单词（查看一个好的开始位置）你应该得到一个连

我正在机器学习中进行特征选择，我想检测像“快乐、好、爱”这样的词，并将其替换为“快乐、好、爱”。我试着用正则表达式来替换连续重复的字母，但如果我这样做了，在爱情中效果很好，在上帝中失败了。我收集了一个英语单词列表，如book、cool、chilling、breeze等，但这个列表对于我的数据集是不够的。我需要参考资料才能继续，因为收集单词列表非常耗时。感谢您的回复。

要获得您的参考，请使用regex

（）\1+

使用类似于

grep

的方法来匹配单词列表中的单词（查看一个好的开始位置）

你应该得到一个连续字母的单词列表，这样你就有了你的推荐信。

谢谢你的建议@AvinashRaj，但是同样的方法对breeeed->breed这样的单词不起作用，但是正则表达式将其转换为breed。还有像booook->book，breeeezzzze->breeze这样的词。你能帮我吗？那就很难用正则表达式了。regex如何知道这是一个完美的单词，而这不是一个完美的单词..我理解，但除了手动收集单词之外，你能给我建议其他方法吗？只要自己找一本可以使用的单词词典，或者编写/找到一个在维基百科上运行的自动收集单词的爬虫。