Twitter 机器学习算法的结果有什么不同?

Twitter 机器学习算法的结果有什么不同?,twitter,data-mining,libsvm,rapidminer,mlp,Twitter,Data Mining,Libsvm,Rapidminer,Mlp,我正在从事一个文本挖掘项目,我使用一个标记的tweets数据集(是或否地震相关tweets包括8000个样本)来训练朴素的MLP(深度学习)LibSVM分类器,以便在RapidMiner上对(是或否)未标记的tweets(28000个样本)进行分类。以下是三种机器学习算法的结果: 天真 准确度=80% 标记为“是”的推文数量=6056 MLP 准确度=86% 标记为“是”的推文数量=2300 LibSVM 准确度=92% 标记为“是”的推文数量=53 我的问题是,为什么标记的tweet数量有很大

我正在从事一个文本挖掘项目,我使用一个标记的tweets数据集(是或否地震相关tweets包括8000个样本)来训练朴素的MLP(深度学习)LibSVM分类器,以便在RapidMiner上对(是或否)未标记的tweets(28000个样本)进行分类。以下是三种机器学习算法的结果:

天真

准确度=80%

标记为“是”的推文数量=6056

MLP

准确度=86%

标记为“是”的推文数量=2300

LibSVM

准确度=92%

标记为“是”的推文数量=53


我的问题是,为什么标记的tweet数量有很大的不同?

我假设您给出的准确度来自于标记数据集的模型构建过程。这表示经过训练的模型能够“重现”训练数据的正确标签。未知、未标记tweet上指定标签数量的巨大差异似乎表明模型中存在严重的过度拟合问题。这意味着这些模型经过了很好的训练,可以重现训练数据,但无法对新的未知数据进行概括

作为第一个建议,请检查验证步骤。有一些基本的技术,如交叉验证,试图避免过度拟合,但也有许多可能通过将测试集的知识引入训练数据来“欺骗”自己


但是,如果没有具体的过程设置,我们只能推测。

我假设您给出的准确度来自标记数据集的模型构建过程。这表示经过训练的模型能够“重现”训练数据的正确标签。未知、未标记tweet上指定标签数量的巨大差异似乎表明模型中存在严重的过度拟合问题。这意味着这些模型经过了很好的训练,可以重现训练数据,但无法对新的未知数据进行概括

作为第一个建议,请检查验证步骤。有一些基本的技术,如交叉验证,试图避免过度拟合,但也有许多可能通过将测试集的知识引入训练数据来“欺骗”自己


但是,如果没有具体的流程设置,我们只能推测。

TNX,那么如何避免过度拟合?我已经在Rapid Miner中将采样类型设置为自动。这是一个非常基本(不容易!)的问题,您必须始终牢记在心。我只能回答一个非常肤浅的问题:将测试集的信息保留在培训集中。对于基于时间的数据来说很困难,因为X-Val在那里什么都不做。请记住,规范化模型还传递有关整个数据集的信息,等等。没有具体的流程和数据,很难提供帮助。也许可以阅读一些关于验证和过度拟合的文章,以获得更好的理解。甚至可以考虑采取一些基本的数据科学/机器学习培训。TNX,这是一个全面的解释。我改变了内核类型(Poly到Linear内核)和C(Cost)值,它对me.TNX有效,那么如何避免过度拟合呢?我已经在Rapid Miner中将采样类型设置为自动。这是一个非常基本(不容易!)的问题,您必须始终牢记在心。我只能回答一个非常肤浅的问题:将测试集的信息保留在培训集中。对于基于时间的数据来说很困难,因为X-Val在那里什么都不做。请记住,规范化模型还传递有关整个数据集的信息,等等。没有具体的流程和数据,很难提供帮助。也许可以阅读一些关于验证和过度拟合的文章,以获得更好的理解。甚至可以考虑采取一些基本的数据科学/机器学习培训。TNX,这是一个全面的解释。我改变了内核类型(Poly到Linear内核)和C(Cost)值,这对我来说很有效。看看数据,而不仅仅是一些汇总分数!在那些标有“是”的推文中,有多少条是真正与地震相关的(你自己读一些!)?我之前查看过一些推文,有一些是真正与地震相关的推文。一些,还是很多?培训数据中有多少?看看数据,而不仅仅是一些总结分数!在那些标有“是”的推文中,有多少条是真正与地震相关的(你自己读一些!)?我之前查看过一些推文,有一些是真正与地震相关的推文。一些,还是很多?培训数据中有多少?