Python 2.7 带有HashingVectorizer和TFIDF转换器的SGDC分类器

Python 2.7 带有HashingVectorizer和TFIDF转换器的SGDC分类器,python-2.7,scikit-learn,tf-idf,Python 2.7,Scikit Learn,Tf Idf,我想了解是否有可能使用HashingVectorizer和TfidfTransformer来训练在线SGDClassizer(部分拟合)。简单地将它们连接到管道中是不可行的,因为TfidfTransformer是有状态的,因此会中断在线学习过程。表示不可能以在线方式使用tf idf,但的一条评论指出,这可能是有可能的:“特别是,如果您将有状态转换器用作TFIDF Transformer,则需要对数据进行多次传递”。如果不将整个训练集加载到内存中,这是可能的吗?如果是,怎么做?如果没有,在大型数据

我想了解是否有可能使用HashingVectorizer和TfidfTransformer来训练在线SGDClassizer(部分拟合)。简单地将它们连接到管道中是不可行的,因为TfidfTransformer是有状态的,因此会中断在线学习过程。表示不可能以在线方式使用tf idf,但的一条评论指出,这可能是有可能的:“特别是,如果您将有状态转换器用作TFIDF Transformer,则需要对数据进行多次传递”。如果不将整个训练集加载到内存中,这是可能的吗?如果是,怎么做?如果没有,在大型数据集上是否有将HashingVectorizer与tf idf相结合的替代解决方案

如果不将整个训练集加载到内存中,这是可能的吗

否。
TfidfTransformer
需要将整个
X
矩阵存储在内存中。您需要滚动您自己的tf idf估计器,使用该估计器在数据的一次传递中计算每学期文档的频率,然后再进行另一次传递以生成tf idf特征并为其安装分类器