Machine learning LibSVM与非数值数据_Machine Learning_Svm_Libsvm_Categorization_Document Classification

Machine learning LibSVM与非数值数据

machine-learning

Machine learning LibSVM与非数值数据,machine-learning,svm,libsvm,categorization,document-classification,Machine Learning,Svm,Libsvm,Categorization,Document Classification,我对使用LibSVM进行文本分类感兴趣。您建议我如何将术语/单词转换为数字数据，以便LibSVM能够理解它谢谢大家! 在文本分类中，人们倾向于构建域中使用的单词的直方图，有时他们会查看两个单词的组合并将其放入直方图中（这称为双直方图）。但这实际上取决于您的数据和目标。我的问题不是特征选择，而是实际编码到LibSVM格式，需要是数字。在他们的网站上，他们提到了一个文本分类示例，并对预处理进行了评论：“我们使用二进制术语频率，并将每个实例标准化为单位长度”。什么是“二元术语频率”？如果文章中出现或

我对使用LibSVM进行文本分类感兴趣。您建议我如何将术语/单词转换为数字数据，以便LibSVM能够理解它

谢谢大家!

在文本分类中，人们倾向于构建域中使用的单词的直方图，有时他们会查看两个单词的组合并将其放入直方图中（这称为双直方图）。但这实际上取决于您的数据和目标。

我的问题不是特征选择，而是实际编码到LibSVM格式，需要是数字。在他们的网站上，他们提到了一个文本分类示例，并对预处理进行了评论：“我们使用二进制术语频率，并将每个实例标准化为单位长度”。什么是“二元术语频率”？如果文章中出现或没有某个术语，二元术语频率就像二元直方图。你有一堆预定义的术语，然后你在文章中扫描这些术语，输出是1/0向量。你的权利，我很难找到实际功能（字符串）的存储位置。但看看文件格式：“[id，]label fid1:fval1 fid2:fval2…”，它是fid。谢谢