Text 如何将文本文档表示为文本分类的特征向量?

Text 如何将文本文档表示为文本分类的特征向量?,text,classification,Text,Classification,我有大约10000个文本文档 如何将它们表示为特征向量,以便我可以使用它们进行文本分类 是否有自动进行特征向量表示的工具?最简单的方法是使用模型。将每个文档表示为无序的单词集合 你可能想去掉标点符号,而忽略大小写。您可能还希望删除诸如“and”、“or”和“the”之类的常用词 要将其调整为一个特征向量,您可以从样本中选择(比如)10000个代表性单词,如果文档i包含单词j或v[i,j]=0,则有一个二进制向量v[i,j]=1,您感兴趣的分类类型:基于类型、作者、情感等。例如,对于文体分类,虚词

我有大约10000个文本文档

如何将它们表示为特征向量,以便我可以使用它们进行文本分类


是否有自动进行特征向量表示的工具?

最简单的方法是使用模型。将每个文档表示为无序的单词集合

你可能想去掉标点符号,而忽略大小写。您可能还希望删除诸如“and”、“or”和“the”之类的常用词


要将其调整为一个特征向量,您可以从样本中选择(比如)10000个代表性单词,如果文档
i
包含单词
j
v[i,j]=0
,则有一个二进制向量
v[i,j]=1
,您感兴趣的分类类型:基于类型、作者、情感等。例如,对于文体分类,虚词很重要,对于基于内容的分类,虚词只是噪音,通常使用停止词列表过滤掉。 如果您对基于内容的分类感兴趣,您可能希望使用一种加权方案,如术语频率/反向文档频率,(1),以便为文档中典型的、在整个文本集合中相对罕见的词赋予更多的权重。这假设文本的向量空间模型是文本的一袋单词表示。(参见和上的Wikipedia)通常tf/idf比二进制分类模式产生更好的结果,后者只包含文档中是否存在术语的信息

这种方法是如此的成熟和常见,以至于Python的scikit learn等机器学习库提供了方便的方法,使用tf/idf作为加权方案将文本集合转换为矩阵