Python TFIDF矢量器的替代方案_Python_Machine Learning_Text Classification

Python TFIDF矢量器的替代方案

python machine-learning

Python TFIDF矢量器的替代方案,python,machine-learning,text-classification,Python,Machine Learning,Text Classification,是否有sklearn.feature\u extraction.text模块的TfidfVectorizer功能的替代方案？我听说过fastText和GloVe，但找不到一个很好的解释如何使用它来矢量化文本编辑：基本上我有一个功能叫做叙述，它由英语句子组成。为了将其输入到任何ML算法中，我必须将其转换为数字矩阵表示。TfIdf是一种方式。我还有别的办法可以试试吗？（可能在sklearn下，也可能不在sklearn下）您要查找的内容称为文本嵌入，请参见示例。基本上，对于你的naration特性，

是否有

sklearn.feature\u extraction.text

模块的

TfidfVectorizer

功能的替代方案？我听说过fastText和GloVe，但找不到一个很好的解释如何使用它来矢量化文本

编辑：基本上我有一个功能叫做叙述，它由英语句子组成。为了将其输入到任何ML算法中，我必须将其转换为数字矩阵表示。TfIdf是一种方式。我还有别的办法可以试试吗？（可能在sklearn下，也可能不在sklearn下）

您要查找的内容称为文本嵌入，请参见示例。基本上，对于你的naration特性，你希望把一个序列转换成向量，从而得到seq_to_vec。TfIdf只是实现这一点的最简单方法之一，它会产生一个稀疏值（更多的组件为=0）。我建议你寻找一个好的起点。

你想计算术语频率（

TF

s），但你不想使用

sklearn

进行计算，因此你正在寻找替代方法，这是正确的吗？对于StackOverflow来说，这可能是一个比较宽泛的话题，我不确定您是否能得到答案。如果你说的“矢量化”是指嵌入，那么你所举的例子就有不同的目的——单词嵌入。相比之下，TFIDFvectorier只计算文档中每个单词的出现次数。我已经更新了我的描述Spark NLP是一个查找它的地方。