Java 如何在朴素贝叶斯垃圾邮件过滤器中实现信息检索技术?

Java 如何在朴素贝叶斯垃圾邮件过滤器中实现信息检索技术?,java,machine-learning,information-retrieval,bayesian,Java,Machine Learning,Information Retrieval,Bayesian,我已经实现了一个朴素的贝叶斯垃圾邮件过滤器,它在给定的数据集上学习,然后预测任何新的输入,如垃圾邮件或ham。但现在我想将信息检索技术融入其中,以提高过滤器的有效性。例如,纠正拼写错误,如如果书写的不是伟哥v1agra或m0rtgage,那么朴素贝叶斯应该纠正它,并且它不应该在概率计算中产生任何问题 任何好的教程,或者一些将信息检索技术与Java实现相结合的工作,都会有很大的帮助 还有哪些其他技术可用于提高过滤器的有效性 提前谢谢。您要找的东西叫做。这通常用于消除“walking”和“walki

我已经实现了一个朴素的贝叶斯垃圾邮件过滤器,它在给定的数据集上学习,然后预测任何新的输入,如垃圾邮件或ham。但现在我想将信息检索技术融入其中,以提高过滤器的有效性。例如,纠正拼写错误,如如果书写的不是伟哥v1agra或m0rtgage,那么朴素贝叶斯应该纠正它,并且它不应该在概率计算中产生任何问题

任何好的教程,或者一些将信息检索技术与Java实现相结合的工作,都会有很大的帮助

还有哪些其他技术可用于提高过滤器的有效性


提前谢谢。

您要找的东西叫做。这通常用于消除“walking”和“walking”之间的差异(Porter词干分析器会将这两个词都转换为“walk”)。在您的情况下,您希望设置一些规则来删除大部分垃圾邮件噪音(删除所有非字母字符?使所有单词小写,等等)。

您要查找的内容称为。这通常用于消除“walking”和“walking”之间的差异(Porter词干分析器会将这两个词都转换为“walk”)。在您的情况下,您希望设置一些规则来删除大部分垃圾邮件噪音(删除所有非字母字符?使所有单词小写,等等)。

检查此项,可能会有所帮助。检查这个,可能会有帮助。