Regex 如何检测突兀的文本?
许多人厌倦了没有价值的突兀话语,比如:Regex 如何检测突兀的文本?,regex,Regex,许多人厌倦了没有价值的突兀话语,比如: 国王 Id | ot 什么 我计划检测可疑记录,然后手动验证它们。换言之,要找到规则来检测某些东西最有可能是突兀的。有什么合理的解决办法吗?我正在考虑这些正则表达式规则: \w\W+\w \D{3,} 这值得付出努力吗?我会使用贝叶斯过滤,对字母和其他字符组合的拼写错误进行特征化处理(例如,您提供的所有示例)。这有一个确定的好处,即它会随着时间的推移“学习”,但在产生有用的结果之前,需要提供一个初始训练集。为了满足您的需要,您可以将匹配的阈值设置为
- 国王
- Id | ot
- 什么李>
\w\W+\w
\D{3,}
这值得付出努力吗?我会使用贝叶斯过滤,对字母和其他字符组合的拼写错误进行特征化处理(例如,您提供的所有示例)。这有一个确定的好处,即它会随着时间的推移“学习”,但在产生有用的结果之前,需要提供一个初始训练集。为了满足您的需要,您可以将匹配的阈值设置为低,这样您就可以得到必须允许的误报(希望算法不会允许通过太多的误报)
Toby Segaran提供了一个很好的解释和Python代码来实现这一点 ˙⅄即使自然语言解析也不可能捕捉到一个合适的部分,正则表达式也会异常失败(顺便说一句,第一个正则表达式匹配,例如
中的o,m
,你好,我的朋友
)!如果这真的是一个严重的问题,考虑通过人类版主来审查一切。(至少你只想找到记录供人类查看,所以你不是完全疯了。^^^)。唯一能检测到突兀文字的是。。。好吧,你自己。:-)一个人的突兀文字是另一个年轻人的文字信息。将此条目标记为噪音、攻击性或垃圾邮件是一个好方法。这似乎很有希望。但根据其他合理的评论,我会尽量避免自动检测。不管怎样,谢谢你。我认为其他的评论都说明了一个正确的观点,那就是,击败检测算法总是有可能的。值得注意的是,实现这样的功能将使检测大多数违规项目变得更加容易。