Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/17.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Regex 如何检测突兀的文本?_Regex - Fatal编程技术网

Regex 如何检测突兀的文本?

Regex 如何检测突兀的文本?,regex,Regex,许多人厌倦了没有价值的突兀话语,比如: 国王 Id | ot 什么 我计划检测可疑记录,然后手动验证它们。换言之,要找到规则来检测某些东西最有可能是突兀的。有什么合理的解决办法吗?我正在考虑这些正则表达式规则: \w\W+\w \D{3,} 这值得付出努力吗?我会使用贝叶斯过滤,对字母和其他字符组合的拼写错误进行特征化处理(例如,您提供的所有示例)。这有一个确定的好处,即它会随着时间的推移“学习”,但在产生有用的结果之前,需要提供一个初始训练集。为了满足您的需要,您可以将匹配的阈值设置为

许多人厌倦了没有价值的突兀话语,比如:

  • 国王
  • Id | ot
  • 什么
我计划检测可疑记录,然后手动验证它们。换言之,要找到规则来检测某些东西最有可能是突兀的。有什么合理的解决办法吗?我正在考虑这些正则表达式规则:

\w\W+\w
\D{3,}

这值得付出努力吗?

我会使用贝叶斯过滤,对字母和其他字符组合的拼写错误进行特征化处理(例如,您提供的所有示例)。这有一个确定的好处,即它会随着时间的推移“学习”,但在产生有用的结果之前,需要提供一个初始训练集。为了满足您的需要,您可以将匹配的阈值设置为低,这样您就可以得到必须允许的误报(希望算法不会允许通过太多的误报)


Toby Segaran提供了一个很好的解释和Python代码来实现这一点

˙⅄即使自然语言解析也不可能捕捉到一个合适的部分,正则表达式也会异常失败(顺便说一句,第一个正则表达式匹配,例如
中的
o,m
,你好,我的朋友
)!如果这真的是一个严重的问题,考虑通过人类版主来审查一切。(至少你只想找到记录供人类查看,所以你不是完全疯了。^^^)。唯一能检测到突兀文字的是。。。好吧,你自己。:-)一个人的突兀文字是另一个年轻人的文字信息。
将此条目标记为噪音、攻击性或垃圾邮件是一个好方法。这似乎很有希望。但根据其他合理的评论,我会尽量避免自动检测。不管怎样,谢谢你。我认为其他的评论都说明了一个正确的观点,那就是,击败检测算法总是有可能的。值得注意的是,实现这样的功能将使检测大多数违规项目变得更加容易。