Python 使用svm light输入电子邮件分类的文件格式

Python 使用svm light输入电子邮件分类的文件格式,python,input,text-processing,svmlight,Python,Input,Text Processing,Svmlight,我正在处理电子邮件主题,因此我有20封电子邮件要分类,一个文件有20行-一行有一个电子邮件主题。我一直在处理它,但我无法弄清楚svmlight的功能是指什么以及输入文件的格式。任何继续进行的提示都会有所帮助。提前谢谢 我已将前500个主题行的tf idf作为试验。但是,根据svm light格式,我们需要: <line> .=. <target> <feature>:<value> <feature>:<value> ...

我正在处理电子邮件主题,因此我有20封电子邮件要分类,一个文件有20行-一行有一个电子邮件主题。我一直在处理它,但我无法弄清楚svmlight的功能是指什么以及输入文件的格式。任何继续进行的提示都会有所帮助。提前谢谢

我已将前500个主题行的tf idf作为试验。但是,根据svm light格式,我们需要:

<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info>

任何想法都将非常感谢,因为我已经在这一点上停留了相当长的时间。提前谢谢

您是否尝试过明显的序列化
1 201:1.0
2 280:0.123165672613 313:034391 5400191 515:0.15759797284
。。。?它是怎么失败的?
1 201 1.0
2 280 0.123165672613
2 313 0.343915400191
2 515 0.157569797284
2 588 0.343915400191
2 652 0.343915400191
2 657 0.343915400191
2 774 0.23622904941
2 921 0.283118375032
2 1158 0.254849368195
2 1240 0.343915400191
2 1348 0.343915400191
2 1362 0.222321349873
3 57 0.342220321154
3 185 0.391349077827
3 244 0.391349077827
3 300 0.391349077827
3 693 0.391349077827
3 730 0.342220321154
3 1391 0.391349077827
4 57 0.342220321154
4 185 0.391349077827
4 244 0.391349077827
4 300 0.391349077827
4 693 0.391349077827
4 730 0.342220321154
4 1391 0.391349077827
5 32 0.323558487577
5 102 0.323558487577
5 157 0.364177022553
5 160 0.364177022553
5 718 0.151013895297
5 1171 0.364177022553
5 1277 0.323558487577
5 1308 0.364177022553
5 1336 0.364177022553