Python 如何告知scikit学习矢量器使用特定功能?
我有一套用手抓取的特征。不是所有的都是单字;其中一些是大图,另一些是三叉图。我想对我的文本进行建模——这些文本是以原始文本的形式提供的,明确地基于这些特征。我怎样才能在sklearn中做到这一点?到目前为止,我就是这样定义向量器的Python 如何告知scikit学习矢量器使用特定功能?,python,scikit-learn,vectorization,Python,Scikit Learn,Vectorization,我有一套用手抓取的特征。不是所有的都是单字;其中一些是大图,另一些是三叉图。我想对我的文本进行建模——这些文本是以原始文本的形式提供的,明确地基于这些特征。我怎样才能在sklearn中做到这一点?到目前为止,我就是这样定义向量器的 def initialize(): from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer(ngram_range=(1, 3))
def initialize():
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(ngram_range=(1, 3))
return vectorizer
CountVectorizer
和TfIdfVectorizer
允许您指定要使用的词汇表。将它们作为关键字参数词汇表传递给构造函数。引自:
词汇表:映射或可编辑,可选
一种映射(如dict),其中键为术语,值为
特征矩阵中的索引,或项上的可数。如果不是
给定的词汇表由输入文档确定
CountVectorizer
和TfIdfVectorizer
允许您指定要使用的词汇表。将它们作为关键字参数词汇表传递给构造函数。引自:
词汇表:映射或可编辑,可选
一种映射(如dict),其中键为术语,值为
特征矩阵中的索引,或项上的可数。如果不是
给定的词汇表由输入文档确定
CountVectorizer
和TfIdfVectorizer
允许您指定要使用的词汇表。将它们作为关键字参数词汇表传递给构造函数。引自:
词汇表:映射或可编辑,可选
一种映射(如dict),其中键为术语,值为
特征矩阵中的索引,或项上的可数。如果不是
给定的词汇表由输入文档确定
CountVectorizer
和TfIdfVectorizer
允许您指定要使用的词汇表。将它们作为关键字参数词汇表传递给构造函数。引自:
词汇表:映射或可编辑,可选
一种映射(如dict),其中键为术语,值为
特征矩阵中的索引,或项上的可数。如果不是
给定的词汇表由输入文档确定