Input SVMLight:如何构建分类器?

Input SVMLight:如何构建分类器?,input,model,format,classification,svmlight,Input,Model,Format,Classification,Svmlight,我正在尝试使用SVMLight构建一个分类器来检测名词短语(NP)是否是回指。我有我的特点,但我一直在理解输入文件的格式,我应该把我所有的文本翻译成这种格式,还是只放代表正实例和负实例的NP。有没有软件可以让我把文件翻译成这种格式 <line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <in

我正在尝试使用SVMLight构建一个分类器来检测名词短语(NP)是否是回指。我有我的特点,但我一直在理解输入文件的格式,我应该把我所有的文本翻译成这种格式,还是只放代表正实例和负实例的NP。有没有软件可以让我把文件翻译成这种格式

<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info> 
<target> .=. +1 | -1 | 0 | <float>  //for positive instance should I put +1
<feature> .=. <integer> | "qid" //should I do this line for all my feature
<value> .=. <float>
<info> .=. <string>  //Should this contain the NP
=.:…:#
.=. +1 |-1 | 0 |//举个积极的例子,我应该加+1吗
.=.  | “qid”//我应该为我的所有功能执行这一行吗
.=. 
.=.   //这应该包含NP吗
另外,对于模型文件,该文件应该确切包含什么


非常感谢您的帮助。

引用康奈尔大学关于使用SVMlight的官方文档,以下是输入格式的示例:

-1:0.43 3:0.12 9284:0.2

据我所知,这意味着在具有“特征”的文档中(在您的案例中为NP),上面的一行表示否定的情况,特征1的权重为0.43,第三个特征的权重为0.12,第9284个特征的值为0.2,所有其他特征的值为0

关于软件或一些源代码或库生成这种格式-这是我正在寻找太多,因此我无法回答你。但我希望你对格式的解释很清楚