Python TfidfVectorizer的词汇表和get_features（）之间的差异？_Python_Scikit Learn_Tfidfvectorizer

Python TfidfVectorizer的词汇表和get_features（）之间的差异？

python scikit-learn

Python TfidfVectorizer的词汇表和get_features（）之间的差异？,python,scikit-learn,tfidfvectorizer,Python,Scikit Learn,Tfidfvectorizer,我有我想将每个值与相应的功能关联起来。现在的单曲结构是什么？如何将单个值的位置映射到特征我如何解释词汇索引并获得_特征？他们有关系吗？根据文档，两者都具有索引功能。这令人困惑？属性词汇表输出一个字典，其中所有ngram都是字典键，相应的值是tfidf矩阵中每个ngram特征的列位置。get_feature_names方法输出一个列表，其中NGRAM根据每个特征的列位置显示。因此，您可以使用其中一个来确定哪个tfidf列对应于哪个功能。在下面的示例中，使用get_feature_names的

我有

我想将每个值与相应的功能关联起来。现在的单曲结构是什么？如何将单个值的位置映射到特征

我如何解释词汇索引并获得_特征？他们有关系吗？根据文档，两者都具有索引功能。这令人困惑？

属性词汇表输出一个字典，其中所有ngram都是字典键，相应的值是tfidf矩阵中每个ngram特征的列位置。get_feature_names方法输出一个列表，其中NGRAM根据每个特征的列位置显示。因此，您可以使用其中一个来确定哪个tfidf列对应于哪个功能。在下面的示例中，使用get_feature_names的输出来命名列，tfidf矩阵很容易转换为熊猫数据帧。还要注意的是，所有值的权重相等，所有权重的平方和等于一

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Train the vectorizer
text="this is a simple example"
singleTFIDF = TfidfVectorizer(ngram_range=(1,2)).fit([text])
singleTFIDF.vocabulary_ # show the word-matrix position pairs

# Analyse the training string - text
single=singleTFIDF.transform([text])
single.toarray()

属性词汇输出一个字典，其中所有ngram是字典键，相应的值是tfidf矩阵中每个ngram特征的列位置。get_feature_names方法输出一个列表，其中NGRAM根据每个特征的列位置显示。因此，您可以使用其中一个来确定哪个tfidf列对应于哪个功能。在下面的示例中，使用get_feature_names的输出来命名列，tfidf矩阵很容易转换为熊猫数据帧。还要注意的是，所有值的权重相等，所有权重的平方和等于一

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Train the vectorizer
text="this is a simple example"
singleTFIDF = TfidfVectorizer(ngram_range=(1,2)).fit([text])
singleTFIDF.vocabulary_ # show the word-matrix position pairs

# Analyse the training string - text
single=singleTFIDF.transform([text])
single.toarray()

啊，我明白了。获取功能输出的顺序与tfidf矩阵中列的顺序相同？其实我不明白的输出只是单不与toarray。我有0,990.045这样的行，所以最后一列是我认为的权重，但是元组是关于什么的呢？谢谢single的输出只是对象信息：。也许值得再次运行代码来验证这一点。我无法复制您评论的0,99 0.045。实际上，printsingle输出的信息与single.toarray相同，但格式略有不同-索引元组行、列以及每个功能的相应权重：printsingle 0、6 0.3779644730092272 0、5 0.3779644730092272 0、4 0.3779644730092272 0、，3 0.3779644730092272 0、2 0.3779644730092272 0、1 0.3779644730092272 0、0.3779644730092272Pandas和tfidf对象有多种处理数据的方法，但如果没有对目标的详细描述，则无法帮助您。请考虑再问一个问题。你是什么意思？什么是IDFFY？啊，我明白了。获取功能输出的顺序与tfidf矩阵中列的顺序相同？其实我不明白的输出只是单不与toarray。我有0,990.045这样的行，所以最后一列是我认为的权重，但是元组是关于什么的呢？谢谢single的输出只是对象信息：。也许值得再次运行代码来验证这一点。我无法复制您评论的0,99 0.045。实际上，printsingle输出的信息与single.toarray相同，但格式略有不同-索引元组行、列以及每个功能的相应权重：printsingle 0、6 0.3779644730092272 0、5 0.3779644730092272 0、4 0.3779644730092272 0、，3 0.3779644730092272 0、2 0.3779644730092272 0、1 0.3779644730092272 0、0.3779644730092272Pandas和tfidf对象有多种处理数据的方法，但如果没有对目标的详细描述，则无法帮助您。请考虑再问一个问题。你是什么意思？什么是IDFY？