Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/dart/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Twitter 机器学习的训练数据集应该有多大?_Twitter_Machine Learning_Nlp_Datumbox - Fatal编程技术网

Twitter 机器学习的训练数据集应该有多大?

Twitter 机器学习的训练数据集应该有多大?,twitter,machine-learning,nlp,datumbox,Twitter,Machine Learning,Nlp,Datumbox,1) 我想在推特推特上进行情绪分析。因此,我选择使用datumbox框架。我很怀疑我的培训样本应该有多大如果我正在收集正面、负面和中性的训练样本,我应该为所有训练样本保持相同的大小吗?(也就是说,我可以收集10个pos,5个neg,15个neutral作为我的训练集,或者我应该收集并维护训练集中所有大小相同的pos,neg,neutral pos=10;neg=10;neutral=10)我用于twitter情绪的算法。 是海军海湾 2) 训练数据集是否有大小限制?训练集:用于构建模型的数据集。

1) 我想在推特推特上进行情绪分析。因此,我选择使用datumbox框架。我很怀疑我的培训样本应该有多大如果我正在收集正面、负面和中性的训练样本,我应该为所有训练样本保持相同的大小吗?(也就是说,我可以收集10个pos,5个neg,15个neutral作为我的训练集,或者我应该收集并维护训练集中所有大小相同的pos,neg,neutral pos=10;neg=10;neutral=10)我用于twitter情绪的算法。 是海军海湾


2) 训练数据集是否有大小限制?

训练集:用于构建模型的数据集。 理想情况下,这些数据无论如何都应该有偏差,并且应该包含将来可能出现的所有情况

训练集越大,效果越好。培训集中的测试用例越多,您的模型就越好。所以试着覆盖尽可能多的pos、neg或中性Twit

没有理想的训练集大小。而且可能永远不会有一个训练集能够预测100%正确的测试用例,这是因为系统不理解讽刺

而且训练集没有大小限制

注意:训练集必须是随机的,不能使用10pos、2neg、3 neutral等,因为这会使它有偏差


一般建议:60-70%用于培训,其余用于验证和测试。

谢谢。我是否需要在某个时间更新我的培训集。我不知道如何使用@animen进行验证和测试。您可以随时通过考虑更大的培训集来改进您的模型。验证是检查有多少记录正确分类并检查如何改进分类的过程。测试是在经过训练的模型上运行新数据以发现模型准确性的阶段。我能知道我的问题被否决的原因吗?它可能被否决了,因为它是一个可以导致基于意见的答案的问题。