检查Java字符串实例是否可能包含垃圾邮件数据的最简单方法

检查Java字符串实例是否可能包含垃圾邮件数据的最简单方法,java,spam-prevention,Java,Spam Prevention,我有一个迭代字符串实例的过程。 每次迭代对字符串实例执行很少的操作。 最后,字符串实例被持久化 现在,我想为每个迭代添加一个检查字符串实例是否可能是垃圾邮件。 我只需要验证字符串实例不是“成人材料”垃圾邮件 有什么建议吗 这是一个业界一直在努力解决的难题。最好的方法是尝试使用现有的解决方案,如与黑名单数据源一起识别垃圾邮件。最简单的方法就是检查已知的垃圾邮件单词。这里的问题是,在不同的上下文中,意思不同的单词很容易出现误报。你或者需要手工挑选单词列表,只包括那些没有合法理由的单词,或者选择一个更

我有一个迭代字符串实例的过程。 每次迭代对字符串实例执行很少的操作。 最后,字符串实例被持久化

现在,我想为每个迭代添加一个检查字符串实例是否可能是垃圾邮件。 我只需要验证字符串实例不是“成人材料”垃圾邮件


有什么建议吗

这是一个业界一直在努力解决的难题。最好的方法是尝试使用现有的解决方案,如与黑名单数据源一起识别垃圾邮件。

最简单的方法就是检查已知的垃圾邮件单词。这里的问题是,在不同的上下文中,意思不同的单词很容易出现误报。你或者需要手工挑选单词列表,只包括那些没有合法理由的单词,或者选择一个更为重要的解决方案。

你需要应用一些贝叶斯逻辑,这就是安德鲁提到的在封面下做的事情


几年前,Paul Graham写了一篇关于这方面的好文章-。

你可以尝试编写自己的分类器等,但是如果你保证了网络访问,那么就使用它怎么样?这对于查找垃圾邮件非常有用

您需要考虑网络连接和许可