Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/71.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 在Weka中,从文本文件生成arff文件_Machine Learning_Weka - Fatal编程技术网

Machine learning 在Weka中,从文本文件生成arff文件

Machine learning 在Weka中,从文本文件生成arff文件,machine-learning,weka,Machine Learning,Weka,在NaiveByes分类器中,我想从训练和测试中找出准确度。但是我的火车是这样的 快乐:absolution丰富的赞誉伴奏成就成就成就杂技演员令人钦佩的崇拜可爱的崇拜崇拜进步的来临倡导美学情感富裕活着的诱惑aloha 悲伤:放弃放弃诱拐流产流产脓肿缺席缺席滥用深渊事故受诅咒的痛苦痛苦的加法器漂流通奸不利的逆境折磨痛苦冒犯后果加重 愤怒的:被抛弃的,被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;

在NaiveByes分类器中,我想从训练和测试中找出准确度。但是我的火车是这样的

快乐:
absolution丰富的赞誉伴奏成就成就成就杂技演员令人钦佩的崇拜可爱的崇拜崇拜进步的来临倡导美学情感富裕活着的诱惑aloha

悲伤:
放弃放弃诱拐流产流产脓肿缺席缺席滥用深渊事故受诅咒的痛苦痛苦的加法器漂流通奸不利的逆境折磨痛苦冒犯后果加重

愤怒的:
被抛弃的,被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的;被抛弃的

用于测试集 数据:
2014年12月7日。。。这首著名的童谣帮助孩子们练习情绪,比如快乐、悲伤、恐惧、疲惫和愤怒。如果你很高兴,并且你知道这是…


现在的问题是如何将它们转换为arff文件

您的训练集不适合为Weka训练模型,但是这些信息可以用于特征提取

您的测试集可以转换为arff文件。从每条消息中提取以下基本功能: 1.“快乐”一词的任何形式是否存在 2.“悲伤”一词的任何形式是否存在 3.“愤怒”一词的任何形式是否存在 4.TF-IDF 等等

然后,对于一些消息(比如70%),您应该手动分配一个类{Happy,Sad,Angry},对于剩下的30%,您可以通过您的模型进行测试

此处提供了有关arff文件的更多信息: 从何处开始;)

如前所述,您的“培训数据”不是真实的培训数据。培训数据应该是与您用于测试的数据类似的文本。然而,在您的示例中,它只是一个单词列表。我的直觉是,你最好避免使用weka,计算每个类别中出现的次数,并选择匹配最多的类别

如果您想使用Weka,我建议您使用与Weka完美集成的工具箱。 然后,您应该将数据转换为一包文字表示。这基本上就是你有每个单词在每个文本中出现的次数作为特征。 另外,这款刀的包装也很好