Scikit learn Scikit学习小批量tfidf矢量器?

Scikit learn Scikit学习小批量tfidf矢量器?,scikit-learn,tf-idf,Scikit Learn,Tf Idf,我一直在尝试在大型语料库上执行tf idf启发式 我可以反复阅读文档并调用 vectorizer.fit() 在每次迭代中?这是只考虑当前迭代,还是记住以前的迭代 谢谢 问题的解决方案取决于您的具体应用。您可以考虑GEnSIME的TFIDF实现,它更有效,不需要将整个语料库保留在内存中。p> 每次调用fit时,词汇表都将从头开始初始化,因此这不是一个选项。那么解决方案是什么?谢谢!这正是我想要的。

我一直在尝试在大型语料库上执行tf idf启发式

我可以反复阅读文档并调用

vectorizer.fit()
在每次迭代中?这是只考虑当前迭代,还是记住以前的迭代


谢谢

问题的解决方案取决于您的具体应用。您可以考虑GEnSIME的TFIDF实现,它更有效,不需要将整个语料库保留在内存中。p> 每次调用fit时,词汇表都将从头开始初始化,因此这不是一个选项。那么解决方案是什么?谢谢!这正是我想要的。