Matrix 为看不见的单词添加功能

Matrix 为看不见的单词添加功能,matrix,scikit-learn,Matrix,Scikit Learn,我正在使用sklearn countvectorizer构建我的术语文档矩阵 但是, from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer(min_df=1) corpus = ['this is jummy speaking now'] X = vectorizer.fit_transform(corpus) c = vectorizer.transform(['lol

我正在使用sklearn countvectorizer构建我的术语文档矩阵

但是,

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(min_df=1)
corpus = ['this is jummy speaking now']
X = vectorizer.fit_transform(corpus)
c = vectorizer.transform(['lol 123']).toarray()

发生的情况是,X将是一个由5个单词组成的术语文档矩阵。但是,我希望矩阵有一个未知列,即6个单词的术语文档矩阵。如果发现一个新的看不见的单词,我希望它是未知列的一部分。比如(lol和123)不在语料库中。它应该是未知列的一部分

scikit
中无法直接执行此操作。我很确定这样做是没有意义的,但是,你打算用向量做什么?未知单词可能是我正在探索的一个功能如果你打算用这些向量进行学习,那么它就没有意义了。你的训练集将不包含看不见的单词的实例,因此任何基于这些数据训练的模型在基于看不见的单词进行任何预测时都是无用的。假设我删除了语料库中出现少于x次的单词。这会给我一个未知的单词vector