Machine learning SciKit SGD回归器RBF核逼近_Machine Learning_Scikit Learn

Machine learning SciKit SGD回归器RBF核逼近

machine-learning scikit-learn

Machine learning SciKit SGD回归器RBF核逼近,machine-learning,scikit-learn,Machine Learning,Scikit Learn,我正在使用scikit学习，并希望使用RBF内核运行SVR。我的数据集相当大，所以从阅读其他文章中，我被建议使用SGD回归和RBF近似。有趣的是，与单独使用SGD相比，使用带有RBF的SGD得到的结果更差。我想这可能是由于错误的参数值。我尝试循环使用RBF采样器的gamma和n_组件，并尝试了SGD regessor的许多参数，但都没有成功。我还输出了训练和交叉验证误差，两者大致相同，因此我认为这是一个偏差问题。为什么您认为RBF特征空间必须比线性特征空间具有更高的精度？虽然情况往往如此，但没有

我正在使用scikit学习，并希望使用RBF内核运行SVR。我的数据集相当大，所以从阅读其他文章中，我被建议使用SGD回归和RBF近似。有趣的是，与单独使用SGD相比，使用带有RBF的SGD得到的结果更差。我想这可能是由于错误的参数值。我尝试循环使用RBF采样器的gamma和n_组件，并尝试了SGD regessor的许多参数，但都没有成功。我还输出了训练和交叉验证误差，两者大致相同，因此我认为这是一个偏差问题。

为什么您认为RBF特征空间必须比线性特征空间具有更高的精度？虽然情况往往如此，但没有理由相信这一定是真的。有一整类真实世界的数据，RBF核做得很差

除此之外，还有许多其他问题可以问/探讨。如果没有其他人使用/探索您的数据，这些问题通常是无法回答的。例如：

原始特征值是否正确规格化
使用的近似方法是否适合数据量/数据类型
这个问题是病态的还是近乎病态的？如果是，我们对近似值的近似是我们错误的原因吗
原始特征是否具有足够的意义，可以使用RBF进行分析
测试的参数值是否适合我的数据及其缩放
当前获得的错误率是多少？对错误率的合理预期是什么

除此之外，还有许多其他问题可以问/探讨。如果没有其他人使用/探索您的数据，这些问题通常是无法回答的。例如：

原始特征值是否正确规格化
使用的近似方法是否适合数据量/数据类型
这个问题是病态的还是近乎病态的？如果是，我们对近似值的近似是我们错误的原因吗
原始特征是否具有足够的意义，可以使用RBF进行分析
测试的参数值是否适合我的数据及其缩放
当前获得的错误率是多少？对错误率的合理预期是什么

Stackoverflow不是询问机器学习领域特定问题的最佳场所。我认为更好的选择是：您使用哪种近似？我发现Nystroem比RBF采样器在相同的维数下工作得更好。而且，维度越多越好。您应该只搜索gamma和SGD参数。可能更愿意尝试LinearSVC（dual=False）和search C（和gamma）。这个问题似乎与主题无关，因为它是关于统计的，而不是编程。Stackoverflow不是询问机器学习领域特定问题的最佳场所。我认为更好的选择是：您使用哪种近似？我发现Nystroem比RBF采样器在相同的维数下工作得更好。而且，维度越多越好。您应该只搜索gamma和SGD参数。也许更愿意尝试LinearSVC（dual=False）和搜索C（和gamma）。这个问题似乎是离题的，因为它是关于统计，而不是编程。