Python TFIDF矢量器的替代方案

Python TFIDF矢量器的替代方案,python,machine-learning,text-classification,Python,Machine Learning,Text Classification,是否有sklearn.feature\u extraction.text模块的TfidfVectorizer功能的替代方案?我听说过fastText和GloVe,但找不到一个很好的解释如何使用它来矢量化文本 编辑:基本上我有一个功能叫做叙述,它由英语句子组成。为了将其输入到任何ML算法中,我必须将其转换为数字矩阵表示。TfIdf是一种方式。我还有别的办法可以试试吗?(可能在sklearn下,也可能不在sklearn下)您要查找的内容称为文本嵌入,请参见示例。基本上,对于你的naration特性,

是否有
sklearn.feature\u extraction.text
模块的
TfidfVectorizer
功能的替代方案?我听说过fastText和GloVe,但找不到一个很好的解释如何使用它来矢量化文本


编辑:基本上我有一个功能叫做叙述,它由英语句子组成。为了将其输入到任何ML算法中,我必须将其转换为数字矩阵表示。TfIdf是一种方式。我还有别的办法可以试试吗?(可能在sklearn下,也可能不在sklearn下)

您要查找的内容称为文本嵌入,请参见示例。基本上,对于你的naration特性,你希望把一个序列转换成向量,从而得到seq_to_vec。TfIdf只是实现这一点的最简单方法之一,它会产生一个稀疏值(更多的组件为=0)。我建议你寻找一个好的起点。

你想计算术语频率(
TF
s),但你不想使用
sklearn
进行计算,因此你正在寻找替代方法,这是正确的吗?对于StackOverflow来说,这可能是一个比较宽泛的话题,我不确定您是否能得到答案。如果你说的“矢量化”是指嵌入,那么你所举的例子就有不同的目的——单词嵌入。相比之下,TFIDFvectorier只计算文档中每个单词的出现次数。我已经更新了我的描述Spark NLP是一个查找它的地方。