Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Mllib决策树算法的准确率总是接近100%_Apache Spark_Machine Learning - Fatal编程技术网

Apache spark Mllib决策树算法的准确率总是接近100%

Apache spark Mllib决策树算法的准确率总是接近100%,apache-spark,machine-learning,Apache Spark,Machine Learning,我正在使用ApacheSpark的Mllib进行twitter情绪分析。MLlib的决策树算法总是给我98-100%的准确率,即使我在不同类型的数据上进行训练和测试(例如,从不同的twitter搜索查询中获得的tweet)。在机器学习中,通常说tat,如果模型给出100%的准确度,那么模型就会受到过度拟合的影响。我的情况也一样吗?我是机器学习新手。请帮我澄清我的疑问。提前感谢您是在测试算法训练过的数据性能,还是在测试算法不知道的数据性能?我正在获取一个数据集。将其分为70:30…使用70%用于培

我正在使用ApacheSpark的Mllib进行twitter情绪分析。MLlib的决策树算法总是给我98-100%的准确率,即使我在不同类型的数据上进行训练和测试(例如,从不同的twitter搜索查询中获得的tweet)。在机器学习中,通常说tat,如果模型给出100%的准确度,那么模型就会受到过度拟合的影响。我的情况也一样吗?我是机器学习新手。请帮我澄清我的疑问。提前感谢

您是在测试算法训练过的数据性能,还是在测试算法不知道的数据性能?我正在获取一个数据集。将其分为70:30…使用70%用于培训,30%用于测试很有可能您在某些功能中存在差异(功能与标签有100%的相关性)。例如,如果您有这样的数据:要素标签1.0正0.0负,则模型始终可以通过检查要素的值来预测正确的标签。因此,如果要素与标签具有100%的相关性。。有什么值得担心的吗?我也在其他数据集上进行了测试。然而,它给出了接近100%的准确度,这实际上也取决于你如何定义你的预测标准。如果你说情绪是“快乐”的,如果它包含“快乐”和“悲伤”两个词,否则你当然很容易得到100%。