Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/matlab/14.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Matlab 垃圾邮件分类的kNN改进_Matlab_Machine Learning_Classification_Spam_Knn - Fatal编程技术网

Matlab 垃圾邮件分类的kNN改进

Matlab 垃圾邮件分类的kNN改进,matlab,machine-learning,classification,spam,knn,Matlab,Machine Learning,Classification,Spam,Knn,目前我正在尝试用kNN分类法对垃圾邮件进行分类。数据集以单词袋表示,包含约10000个观察值和约900个特征。Matlab是我用来处理数据的工具 在过去的几天里,我使用了几种机器学习方法:SVM、Bayes和kNN。在我看来,kNN在最小化误报率方面的性能优于SVM和Bayes。通过10倍交叉验证检查,使用k=9和曼哈顿距离,我获得了0.0025的假阳性率。汉明距离在同一区域执行 为了进一步提高我的FPR,我尝试用PCA对数据进行预处理,但将FPR值设为0.08是不可接受的 您知道如何调整数据集

目前我正在尝试用kNN分类法对垃圾邮件进行分类。数据集以单词袋表示,包含约10000个观察值和约900个特征。Matlab是我用来处理数据的工具

在过去的几天里,我使用了几种机器学习方法:SVM、Bayes和kNN。在我看来,kNN在最小化误报率方面的性能优于SVM和Bayes。通过10倍交叉验证检查,使用k=9和曼哈顿距离,我获得了0.0025的假阳性率。汉明距离在同一区域执行

为了进一步提高我的FPR,我尝试用PCA对数据进行预处理,但将FPR值设为0.08是不可接受的

您知道如何调整数据集以获得更好的FPR吗


PS:是的,为了通过机器学习课程,这是我必须完成的任务。

要尝试的事情:重复计算训练数据中的非垃圾邮件样本。比如说,1000个样本中有500个是非垃圾邮件。在重复计算非垃圾邮件后,您将拥有1500个样本的培训集。这可能会给假阳性测试样本带来更多的阳性近邻。请注意,总体性能可能会受到影响

因为这不是一个编程问题,你应该问她:你用了什么样的贝叶斯。只是一个基本的朴素贝叶斯分类器?是的,我确实使用了朴素贝叶斯分类器。那是我们在课堂上用的。你会建议另一种贝叶斯方法吗?