Text 基于MALLET的文本分类

Text 基于MALLET的文本分类,text,input,attributes,classification,mallet,Text,Input,Attributes,Classification,Mallet,我不太会用木槌。我通常使用WEKA进行分类,现在我尝试使用Mallet进行文本分类。在Weka中,有一些属性,如单词长度或top-n单词出现率,我们自己选择并生成.arff文件 我在中读到了有关Mallet的输入格式,但我仍然感到困惑。如何在输入格式中指定属性?我们如何判断此文档属于某一类?例如,文档属于体育类 任何输入格式文件的例子将非常感谢 谢谢 -如何判断此文档属于某一类 每个类可以有一个文件夹,例如: C:/Corpus/Class1 C:/Corpus/Class2 C:/Corpus

我不太会用木槌。我通常使用WEKA进行分类,现在我尝试使用Mallet进行文本分类。在Weka中,有一些属性,如单词长度或top-n单词出现率,我们自己选择并生成.arff文件

我在中读到了有关Mallet的输入格式,但我仍然感到困惑。如何在输入格式中指定属性?我们如何判断此文档属于某一类?例如,文档属于体育类

任何输入格式文件的例子将非常感谢


谢谢

-如何判断此文档属于某一类

每个类可以有一个文件夹,例如: C:/Corpus/Class1 C:/Corpus/Class2 C:/Corpus/Classn 每个文件夹都包含属于该类的文档

如何在输入格式中指定属性

如果要了解文件导入的选项,请转到: C:/mallet/bin 一旦你到了那里: mallet导入目录-帮助 将显示导入文件的选项,例如-删除停止字,-克大小

导入文件的示例代码:


bin/mallet import dir-输入C:/Corpus/*-输出Corpus.mallet-克大小1,2-保留大小写

-我们如何判断此文档属于某一类

每个类可以有一个文件夹,例如: C:/Corpus/Class1 C:/Corpus/Class2 C:/Corpus/Classn 每个文件夹都包含属于该类的文档

如何在输入格式中指定属性

如果要了解文件导入的选项,请转到: C:/mallet/bin 一旦你到了那里: mallet导入目录-帮助 将显示导入文件的选项,例如-删除停止字,-克大小

导入文件的示例代码:


bin/mallet import dir-输入C:/Corpus/*-输出Corpus.mallet-克大小1,2-保留大小写

感谢您的回答。所以我假设Mallet的默认属性类型是unigram,其中所有的单词都是属性?没错。你可以选择比格拉姆,比如-克大小的1,2。太棒了!你的回答真的帮助我理解了分类用木槌:现在我用木槌做研究。谢谢你的回答。所以我假设Mallet的默认属性类型是unigram,其中所有的单词都是属性?没错。你可以选择比格拉姆,比如-克大小的1,2。太棒了!你的回答真的帮助我理解了分类用木槌:现在我用木槌做研究。