Apache spark Mllib决策树算法的准确率总是接近100%
我正在使用ApacheSpark的Mllib进行twitter情绪分析。MLlib的决策树算法总是给我98-100%的准确率,即使我在不同类型的数据上进行训练和测试(例如,从不同的twitter搜索查询中获得的tweet)。在机器学习中,通常说tat,如果模型给出100%的准确度,那么模型就会受到过度拟合的影响。我的情况也一样吗?我是机器学习新手。请帮我澄清我的疑问。提前感谢您是在测试算法训练过的数据性能,还是在测试算法不知道的数据性能?我正在获取一个数据集。将其分为70:30…使用70%用于培训,30%用于测试很有可能您在某些功能中存在差异(功能与标签有100%的相关性)。例如,如果您有这样的数据:要素标签1.0正0.0负,则模型始终可以通过检查要素的值来预测正确的标签。因此,如果要素与标签具有100%的相关性。。有什么值得担心的吗?我也在其他数据集上进行了测试。然而,它给出了接近100%的准确度,这实际上也取决于你如何定义你的预测标准。如果你说情绪是“快乐”的,如果它包含“快乐”和“悲伤”两个词,否则你当然很容易得到100%。Apache spark Mllib决策树算法的准确率总是接近100%,apache-spark,machine-learning,Apache Spark,Machine Learning,我正在使用ApacheSpark的Mllib进行twitter情绪分析。MLlib的决策树算法总是给我98-100%的准确率,即使我在不同类型的数据上进行训练和测试(例如,从不同的twitter搜索查询中获得的tweet)。在机器学习中,通常说tat,如果模型给出100%的准确度,那么模型就会受到过度拟合的影响。我的情况也一样吗?我是机器学习新手。请帮我澄清我的疑问。提前感谢您是在测试算法训练过的数据性能,还是在测试算法不知道的数据性能?我正在获取一个数据集。将其分为70:30…使用70%用于培