Text 如何将文本文档表示为文本分类的特征向量？_Text_Classification

Text 如何将文本文档表示为文本分类的特征向量？

text

Text 如何将文本文档表示为文本分类的特征向量？,text,classification,Text,Classification,我有大约10000个文本文档如何将它们表示为特征向量，以便我可以使用它们进行文本分类是否有自动进行特征向量表示的工具？最简单的方法是使用模型。将每个文档表示为无序的单词集合你可能想去掉标点符号，而忽略大小写。您可能还希望删除诸如“and”、“or”和“the”之类的常用词要将其调整为一个特征向量，您可以从样本中选择（比如）10000个代表性单词，如果文档i包含单词j或v[i，j]=0，则有一个二进制向量v[i，j]=1，您感兴趣的分类类型：基于类型、作者、情感等。例如，对于文体分类，虚词

我有大约10000个文本文档

如何将它们表示为特征向量，以便我可以使用它们进行文本分类

是否有自动进行特征向量表示的工具？

最简单的方法是使用模型。将每个文档表示为无序的单词集合

你可能想去掉标点符号，而忽略大小写。您可能还希望删除诸如“and”、“or”和“the”之类的常用词

要将其调整为一个特征向量，您可以从样本中选择（比如）10000个代表性单词，如果文档

包含单词

或

v[i，j]=0

，则有一个二进制向量

v[i，j]=1

，您感兴趣的分类类型：基于类型、作者、情感等。例如，对于文体分类，虚词很重要，对于基于内容的分类，虚词只是噪音，通常使用停止词列表过滤掉。如果您对基于内容的分类感兴趣，您可能希望使用一种加权方案，如术语频率/反向文档频率，（1），以便为文档中典型的、在整个文本集合中相对罕见的词赋予更多的权重。这假设文本的向量空间模型是文本的一袋单词表示。（参见和上的Wikipedia）通常tf/idf比二进制分类模式产生更好的结果，后者只包含文档中是否存在术语的信息

这种方法是如此的成熟和常见，以至于Python的scikit learn等机器学习库提供了方便的方法，使用tf/idf作为加权方案将文本集合转换为矩阵