Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/354.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何改进回归?_Python_Matlab_Regression_Svm_Random Forest - Fatal编程技术网

Python 如何改进回归?

Python 如何改进回归?,python,matlab,regression,svm,random-forest,Python,Matlab,Regression,Svm,Random Forest,我想问一下,是否有任何方法可以使我的数据集的回归真正通用化 我的问题是,在我使用随机森林或SVM回归器对数据进行训练后,它在训练数据集中运行得不错,但在尝试使用测试数据集时却显示出非常糟糕的结果。。即使它们有相同的基本方程 我真的不知道如何改进这个。这是否意味着我应该用更多的数据集继续训练我的回归 有人能帮我吗(最好是训练和测试哪种数据集…例如维度、项目等。 有几个原因,但在这种情况下,通常培训失败时 训练集的大小很小 领域空间太大,无法学习/非常非凸/非常非线性 模型参数不合适 这只是我的想法

我想问一下,是否有任何方法可以使我的数据集的回归真正通用化

我的问题是,在我使用随机森林或SVM回归器对数据进行训练后,它在训练数据集中运行得不错,但在尝试使用测试数据集时却显示出非常糟糕的结果。。即使它们有相同的基本方程

我真的不知道如何改进这个。这是否意味着我应该用更多的数据集继续训练我的回归


有人能帮我吗(

最好是训练和测试哪种数据集…例如维度、项目等。 有几个原因,但在这种情况下,通常培训失败时

  • 训练集的大小很小
  • 领域空间太大,无法学习/非常非凸/非常非线性
  • 模型参数不合适
  • 这只是我的想法,但作为回归器,SVM或其他基于树的模型(如随机森林/决策树)在数据集较小时有点不稳定。如果维数小于10,我建议使用高斯过程回归器

    在尝试训练/测试任何模型之前,建议对数据集进行规范化/正则化

    仅供参考,以下是我刚在谷歌上搜索到的链接


    最好是训练和测试哪种数据集……例如维度、项目等。 有几个原因,但在这种情况下,通常培训失败时

  • 训练集的大小很小
  • 领域空间太大,无法学习/非常非凸/非常非线性
  • 模型参数不合适
  • 这只是我的想法,但作为回归器,SVM或其他基于树的模型(如随机森林/决策树)在数据集较小时有点不稳定。如果维数小于10,我建议使用高斯过程回归器

    在尝试训练/测试任何模型之前,建议对数据集进行规范化/正则化

    仅供参考,以下是我刚在谷歌上搜索到的链接


      • 我们无法回答您的问题。您甚至没有尝试提供数据或代码。您如何知道出现问题的原因

        只要我的两分钱:

      • 列车和测试数据是否不平衡? ->这是测试结果不好的主要原因

      • 样品是否合理大


      • 我们无法回答您的问题。您甚至没有尝试提供数据或代码。如何知道出现问题的原因

        只要我的两分钱:

      • 列车和测试数据是否不平衡? ->这是测试结果不好的主要原因

      • 样品是否合理大


      • 亲爱的萨沙,我建议你在提出另一个问题之前先阅读。如果到目前为止的建议至少对你有用,我们也不介意投赞成票。亲爱的萨沙,我建议你在提出另一个问题之前先阅读。如果到目前为止的建议至少对你有用,我们也不介意投反对票。谢谢!让我读一下:)非常感谢。让我读一下:)对不起,如果我的问题不清楚。我有维度为4的数据集,一个输出和大约50万次观察。我能说这个很大吗?你所说的不平衡是什么意思,你能再解释一下吗?提前谢谢你!对不起,我的问题不清楚。我有维度为4的数据集,一个输出和大约50万次观察。我能说这个很大吗?你所说的不平衡是什么意思,你能再解释一下吗?提前谢谢你!