Machine learning LibSVM与非数值数据

Machine learning LibSVM与非数值数据,machine-learning,svm,libsvm,categorization,document-classification,Machine Learning,Svm,Libsvm,Categorization,Document Classification,我对使用LibSVM进行文本分类感兴趣。您建议我如何将术语/单词转换为数字数据,以便LibSVM能够理解它 谢谢大家! 在文本分类中,人们倾向于构建域中使用的单词的直方图,有时他们会查看两个单词的组合并将其放入直方图中(这称为双直方图)。但这实际上取决于您的数据和目标。我的问题不是特征选择,而是实际编码到LibSVM格式,需要是数字。在他们的网站上,他们提到了一个文本分类示例,并对预处理进行了评论:“我们使用二进制术语频率,并将每个实例标准化为单位长度”。什么是“二元术语频率”?如果文章中出现或

我对使用LibSVM进行文本分类感兴趣。您建议我如何将术语/单词转换为数字数据,以便LibSVM能够理解它


谢谢大家!

在文本分类中,人们倾向于构建域中使用的单词的直方图,有时他们会查看两个单词的组合并将其放入直方图中(这称为双直方图)。但这实际上取决于您的数据和目标。

我的问题不是特征选择,而是实际编码到LibSVM格式,需要是数字。在他们的网站上,他们提到了一个文本分类示例,并对预处理进行了评论:“我们使用二进制术语频率,并将每个实例标准化为单位长度”。什么是“二元术语频率”?如果文章中出现或没有某个术语,二元术语频率就像二元直方图。你有一堆预定义的术语,然后你在文章中扫描这些术语,输出是1/0向量。你的权利,我很难找到实际功能(字符串)的存储位置。但看看文件格式:“[id,]label fid1:fval1 fid2:fval2…”,它是fid。谢谢