Machine learning SciKit SGD回归器RBF核逼近

Machine learning SciKit SGD回归器RBF核逼近,machine-learning,scikit-learn,Machine Learning,Scikit Learn,我正在使用scikit学习,并希望使用RBF内核运行SVR。我的数据集相当大,所以从阅读其他文章中,我被建议使用SGD回归和RBF近似。有趣的是,与单独使用SGD相比,使用带有RBF的SGD得到的结果更差。我想这可能是由于错误的参数值。我尝试循环使用RBF采样器的gamma和n_组件,并尝试了SGD regessor的许多参数,但都没有成功。我还输出了训练和交叉验证误差,两者大致相同,因此我认为这是一个偏差问题。为什么您认为RBF特征空间必须比线性特征空间具有更高的精度?虽然情况往往如此,但没有

我正在使用scikit学习,并希望使用RBF内核运行SVR。我的数据集相当大,所以从阅读其他文章中,我被建议使用SGD回归和RBF近似。有趣的是,与单独使用SGD相比,使用带有RBF的SGD得到的结果更差。我想这可能是由于错误的参数值。我尝试循环使用RBF采样器的gamma和n_组件,并尝试了SGD regessor的许多参数,但都没有成功。我还输出了训练和交叉验证误差,两者大致相同,因此我认为这是一个偏差问题。

为什么您认为RBF特征空间必须比线性特征空间具有更高的精度?虽然情况往往如此,但没有理由相信这一定是真的。有一整类真实世界的数据,RBF核做得很差

除此之外,还有许多其他问题可以问/探讨。如果没有其他人使用/探索您的数据,这些问题通常是无法回答的。例如:

  • 原始特征值是否正确规格化
  • 使用的近似方法是否适合数据量/数据类型
  • 这个问题是病态的还是近乎病态的?如果是,我们对近似值的近似是我们错误的原因吗
  • 原始特征是否具有足够的意义,可以使用RBF进行分析
  • 测试的参数值是否适合我的数据及其缩放
  • 当前获得的错误率是多少?对错误率的合理预期是什么
为什么您认为RBF特征空间必须比线性特征空间具有更高的精度?虽然情况往往如此,但没有理由相信这一定是真的。有一整类真实世界的数据,RBF核做得很差

除此之外,还有许多其他问题可以问/探讨。如果没有其他人使用/探索您的数据,这些问题通常是无法回答的。例如:

  • 原始特征值是否正确规格化
  • 使用的近似方法是否适合数据量/数据类型
  • 这个问题是病态的还是近乎病态的?如果是,我们对近似值的近似是我们错误的原因吗
  • 原始特征是否具有足够的意义,可以使用RBF进行分析
  • 测试的参数值是否适合我的数据及其缩放
  • 当前获得的错误率是多少?对错误率的合理预期是什么
Stackoverflow不是询问机器学习领域特定问题的最佳场所。我认为更好的选择是:您使用哪种近似?我发现Nystroem比RBF采样器在相同的维数下工作得更好。而且,维度越多越好。您应该只搜索gamma和SGD参数。可能更愿意尝试LinearSVC(dual=False)和search C(和gamma)。这个问题似乎与主题无关,因为它是关于统计的,而不是编程。Stackoverflow不是询问机器学习领域特定问题的最佳场所。我认为更好的选择是:您使用哪种近似?我发现Nystroem比RBF采样器在相同的维数下工作得更好。而且,维度越多越好。您应该只搜索gamma和SGD参数。也许更愿意尝试LinearSVC(dual=False)和搜索C(和gamma)。这个问题似乎是离题的,因为它是关于统计,而不是编程。