Regex 如何检测突兀的文本？_Regex

Regex 如何检测突兀的文本？

regex

Regex 如何检测突兀的文本？,regex,Regex,许多人厌倦了没有价值的突兀话语，比如：国王 Id | ot 什么我计划检测可疑记录，然后手动验证它们。换言之，要找到规则来检测某些东西最有可能是突兀的。有什么合理的解决办法吗？我正在考虑这些正则表达式规则： \w\W+\w \D{3,} 这值得付出努力吗？我会使用贝叶斯过滤，对字母和其他字符组合的拼写错误进行特征化处理（例如，您提供的所有示例）。这有一个确定的好处，即它会随着时间的推移“学习”，但在产生有用的结果之前，需要提供一个初始训练集。为了满足您的需要，您可以将匹配的阈值设置为

许多人厌倦了没有价值的突兀话语，比如：

国王
Id | ot
什么

我计划检测可疑记录，然后手动验证它们。换言之，要找到规则来检测某些东西最有可能是突兀的。有什么合理的解决办法吗？我正在考虑这些正则表达式规则：

\w\W+\w
\D{3,}

这值得付出努力吗？

我会使用贝叶斯过滤，对字母和其他字符组合的拼写错误进行特征化处理（例如，您提供的所有示例）。这有一个确定的好处，即它会随着时间的推移“学习”，但在产生有用的结果之前，需要提供一个初始训练集。为了满足您的需要，您可以将匹配的阈值设置为低，这样您就可以得到必须允许的误报（希望算法不会允许通过太多的误报）

Toby Segaran提供了一个很好的解释和Python代码来实现这一点

˙⅄即使自然语言解析也不可能捕捉到一个合适的部分，正则表达式也会异常失败（顺便说一句，第一个正则表达式匹配，例如

中的o，m
，你好，我的朋友

）！如果这真的是一个严重的问题，考虑通过人类版主来审查一切。（至少你只想找到记录供人类查看，所以你不是完全疯了。^^^）。唯一能检测到突兀文字的是。。。好吧，你自己。：-）一个人的突兀文字是另一个年轻人的文字信息。

将此条目标记为噪音、攻击性或垃圾邮件是一个好方法。这似乎很有希望。但根据其他合理的评论，我会尽量避免自动检测。不管怎样，谢谢你。我认为其他的评论都说明了一个正确的观点，那就是，击败检测算法总是有可能的。值得注意的是，实现这样的功能将使检测大多数违规项目变得更加容易。