Machine learning 将prop文件转换为arff文件_Machine Learning_Nlp_Weka_Stanford Nlp

Machine learning 将prop文件转换为arff文件

machine-learning nlp stanford-nlp

Machine learning 将prop文件转换为arff文件,machine-learning,nlp,weka,stanford-nlp,Machine Learning,Nlp,Weka,Stanford Nlp,我正在用于NLP相关的任务。但我也需要尝试其他的机器学习算法。因此，我想将道具文件转换为arff或打印特征，然后转换为arff文件。一个主要问题是分类器工具输出的特征是稀疏表示（仅显示存在的特征）。如何实现这一点？ARFF有一种格式。它与非稀疏ARFF文件非常相似，但值为0的数据不能显式表示稀疏ARFF文件具有相同的头（即@relation和@attribute标记），但数据部分不同。而不是按顺序表示每个值，如下所示：非零属性由属性编号及其值明确标识，如下所示：注意关于arff稀疏格式的问

我正在用于NLP相关的任务。但我也需要尝试其他的机器学习算法。因此，我想将道具文件转换为arff或打印特征，然后转换为arff文件。一个主要问题是分类器工具输出的特征是稀疏表示（仅显示存在的特征）。如何实现这一点？

ARFF有一种格式。它与非稀疏ARFF文件非常相似，但值为0的数据不能显式表示

稀疏ARFF文件具有相同的头（即@relation和@attribute标记），但数据部分不同。而不是按顺序表示每个值，如下所示：

非零属性由属性编号及其值明确标识，如下所示：

注意关于arff稀疏格式的问题。

在斯坦福分类器中，假设为一个句子生成Ngram，整个句子在第1列给出。然后，特征将表示为

1-set1Ngram 1-nextsetgram 1-nextAgain

，依此类推，直到所有ngram形成。但是我假设这一组中的每一个在arff格式中形成一个不同的特性，因此格式应该是，比如说

{1 set1Ngram，2 nextsetram，3 nextAgain}，而不是{1 set1Ngram，1 nextsetram，1 nextAgain}

@data
0, X, 0, Y, "class A"
0, 0, W, 0, "class B"

@data
{1 X, 3 Y, 4 "class A"}
{2 W, 4 "class B"}