Machine learning KNN算法中K值的选择_Machine Learning_Knn

Machine learning KNN算法中K值的选择

machine-learning

Machine learning KNN算法中K值的选择,machine-learning,knn,Machine Learning,Knn,我对应用KNN算法有点困惑。问题是- 我是如何设置K值的，我看到有时候它是2，4等等？有什么症状/有效的方法来选择最佳K值吗？我使用不同的k值，找出哪个值最适合你的问题。还有什么别的方法可以节省我的时间吗？谢谢。这可能非常棘手。首先，我看这里：。我将继续我的解释诀窍在于——一般来说——k值越低，训练集中的表现就越好。也就是说，您的模型将更好地捕获它所训练的数据集的可变性。您可以这样想：对于所有实例，k=1是最过度拟合的情况。预测仅基于最接近所提供样本的训练样本问题是——即使在低维、直

我对应用KNN算法有点困惑。问题是- 我是如何设置K值的，我看到有时候它是2，4等等？有什么症状/有效的方法来选择最佳K值吗？我使用不同的k值，找出哪个值最适合你的问题。还有什么别的方法可以节省我的时间吗？

谢谢。

这可能非常棘手。首先，我看这里：。我将继续我的解释

诀窍在于——一般来说——k值越低，训练集中的表现就越好。也就是说，您的模型将更好地捕获它所训练的数据集的可变性。您可以这样想：对于所有实例，k=1是最过度拟合的情况。预测仅基于最接近所提供样本的训练样本

问题是——即使在低维、直观的空间中——这也不能（或者说，不经常）很好地概括。在较大的数据集上，最好增加邻居的数量，以更好地表示被识别类别的共享特征：一些可变性是可以接受的，但它（希望）通常会抵消，以最好地反映被识别类别的平均属性

一般来说，解决这个问题没有灵丹妙药。有时，这可能很明显：将泛化误差绘制为k的函数。如果存在明显的弯头（快速下降，然后是平台），这是适当选择k值的良好指示。这意味着有一个由训练数据“建议”的k值：一个在不过度计算最近邻类的情况下最佳概括的值

不过，目前还没有明确的分析解决方案。从根本上说，这是一个培训数据如何反映测试数据以及培训和测试数据如何反映采集样本之外的数据的问题。如果您还有其他问题，请告诉我！我对数据科学充满热情，很高兴能完善我的答案

对于松散的直觉，低k值对应于分类空间中的“尖锐”决策边界。较高的k值对应于“更弯曲的”或在极限平面中对应于决策边界。我的建议是制作一些合成数据，以获得变化k的影响的直觉