Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/330.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何告知scikit学习矢量器使用特定功能?_Python_Scikit Learn_Vectorization - Fatal编程技术网

Python 如何告知scikit学习矢量器使用特定功能?

Python 如何告知scikit学习矢量器使用特定功能?,python,scikit-learn,vectorization,Python,Scikit Learn,Vectorization,我有一套用手抓取的特征。不是所有的都是单字;其中一些是大图,另一些是三叉图。我想对我的文本进行建模——这些文本是以原始文本的形式提供的,明确地基于这些特征。我怎样才能在sklearn中做到这一点?到目前为止,我就是这样定义向量器的 def initialize(): from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer(ngram_range=(1, 3))

我有一套用手抓取的特征。不是所有的都是单字;其中一些是大图,另一些是三叉图。我想对我的文本进行建模——这些文本是以原始文本的形式提供的,明确地基于这些特征。我怎样才能在sklearn中做到这一点?到目前为止,我就是这样定义向量器的

def initialize():
    from sklearn.feature_extraction.text import CountVectorizer
    vectorizer = CountVectorizer(ngram_range=(1, 3))
    return vectorizer

CountVectorizer
TfIdfVectorizer
允许您指定要使用的词汇表。将它们作为关键字参数
词汇表
传递给构造函数。引自:

词汇表:映射或可编辑,可选

一种映射(如dict),其中键为术语,值为 特征矩阵中的索引,或项上的可数。如果不是 给定的词汇表由输入文档确定


CountVectorizer
TfIdfVectorizer
允许您指定要使用的词汇表。将它们作为关键字参数
词汇表
传递给构造函数。引自:

词汇表:映射或可编辑,可选

一种映射(如dict),其中键为术语,值为 特征矩阵中的索引,或项上的可数。如果不是 给定的词汇表由输入文档确定


CountVectorizer
TfIdfVectorizer
允许您指定要使用的词汇表。将它们作为关键字参数
词汇表
传递给构造函数。引自:

词汇表:映射或可编辑,可选

一种映射(如dict),其中键为术语,值为 特征矩阵中的索引,或项上的可数。如果不是 给定的词汇表由输入文档确定


CountVectorizer
TfIdfVectorizer
允许您指定要使用的词汇表。将它们作为关键字参数
词汇表
传递给构造函数。引自:

词汇表:映射或可编辑,可选

一种映射(如dict),其中键为术语,值为 特征矩阵中的索引,或项上的可数。如果不是 给定的词汇表由输入文档确定