Machine learning 将prop文件转换为arff文件

Machine learning 将prop文件转换为arff文件,machine-learning,nlp,weka,stanford-nlp,Machine Learning,Nlp,Weka,Stanford Nlp,我正在用于NLP相关的任务。但我也需要尝试其他的机器学习算法。因此,我想将道具文件转换为arff或打印特征,然后转换为arff文件。一个主要问题是分类器工具输出的特征是稀疏表示(仅显示存在的特征)。如何实现这一点?ARFF有一种格式。它与非稀疏ARFF文件非常相似,但值为0的数据不能显式表示 稀疏ARFF文件具有相同的头(即@relation和@attribute标记),但数据部分不同。而不是按顺序表示每个值,如下所示: 非零属性由属性编号及其值明确标识,如下所示: 注意关于arff稀疏格式的问

我正在用于NLP相关的任务。但我也需要尝试其他的机器学习算法。因此,我想将道具文件转换为arff或打印特征,然后转换为arff文件。一个主要问题是分类器工具输出的特征是稀疏表示(仅显示存在的特征)。如何实现这一点?

ARFF有一种格式。它与非稀疏ARFF文件非常相似,但值为0的数据不能显式表示

稀疏ARFF文件具有相同的头(即@relation和@attribute标记),但数据部分不同。而不是按顺序表示每个值,如下所示:

非零属性由属性编号及其值明确标识,如下所示:


注意关于arff稀疏格式的问题。

在斯坦福分类器中,假设为一个句子生成Ngram,整个句子在第1列给出。然后,特征将表示为
1-set1Ngram 1-nextsetgram 1-nextAgain
,依此类推,直到所有ngram形成。但是我假设这一组中的每一个在arff格式中形成一个不同的特性,因此格式应该是,比如说
{1 set1Ngram,2 nextsetram,3 nextAgain},而不是{1 set1Ngram,1 nextsetram,1 nextAgain}
@data
0, X, 0, Y, "class A"
0, 0, W, 0, "class B"
@data
{1 X, 3 Y, 4 "class A"}
{2 W, 4 "class B"}