Apache spark Mllib决策树算法的准确率总是接近100%_Apache Spark_Machine Learning

Apache spark Mllib决策树算法的准确率总是接近100%

apache-spark machine-learning

Apache spark Mllib决策树算法的准确率总是接近100%,apache-spark,machine-learning,Apache Spark,Machine Learning,我正在使用ApacheSpark的Mllib进行twitter情绪分析。MLlib的决策树算法总是给我98-100%的准确率，即使我在不同类型的数据上进行训练和测试（例如，从不同的twitter搜索查询中获得的tweet）。在机器学习中，通常说tat，如果模型给出100%的准确度，那么模型就会受到过度拟合的影响。我的情况也一样吗？我是机器学习新手。请帮我澄清我的疑问。提前感谢您是在测试算法训练过的数据性能，还是在测试算法不知道的数据性能？我正在获取一个数据集。将其分为70:30…使用70%用于培

我正在使用ApacheSpark的Mllib进行twitter情绪分析。MLlib的决策树算法总是给我98-100%的准确率，即使我在不同类型的数据上进行训练和测试（例如，从不同的twitter搜索查询中获得的tweet）。在机器学习中，通常说tat，如果模型给出100%的准确度，那么模型就会受到过度拟合的影响。我的情况也一样吗？我是机器学习新手。请帮我澄清我的疑问。提前感谢

您是在测试算法训练过的数据性能，还是在测试算法不知道的数据性能？我正在获取一个数据集。将其分为70:30…使用70%用于培训，30%用于测试很有可能您在某些功能中存在差异（功能与标签有100%的相关性）。例如，如果您有这样的数据：要素标签1.0正0.0负，则模型始终可以通过检查要素的值来预测正确的标签。因此，如果要素与标签具有100%的相关性。。有什么值得担心的吗？我也在其他数据集上进行了测试。然而，它给出了接近100%的准确度，这实际上也取决于你如何定义你的预测标准。如果你说情绪是“快乐”的，如果它包含“快乐”和“悲伤”两个词，否则你当然很容易得到100%。