Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/291.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python TfidfVectorizer的词汇表和get_features()之间的差异?_Python_Scikit Learn_Tfidfvectorizer - Fatal编程技术网

Python TfidfVectorizer的词汇表和get_features()之间的差异?

Python TfidfVectorizer的词汇表和get_features()之间的差异?,python,scikit-learn,tfidfvectorizer,Python,Scikit Learn,Tfidfvectorizer,我有 我想将每个值与相应的功能关联起来。 现在的单曲结构是什么?如何将单个值的位置映射到特征 我如何解释词汇索引并获得_特征?他们有关系吗?根据文档,两者都具有索引功能。这令人困惑?属性词汇表输出一个字典,其中所有ngram都是字典键,相应的值是tfidf矩阵中每个ngram特征的列位置。get_feature_names方法输出一个列表,其中NGRAM根据每个特征的列位置显示。因此,您可以使用其中一个来确定哪个tfidf列对应于哪个功能。在下面的示例中,使用get_feature_names的

我有

我想将每个值与相应的功能关联起来。 现在的单曲结构是什么?如何将单个值的位置映射到特征

我如何解释词汇索引并获得_特征?他们有关系吗?根据文档,两者都具有索引功能。这令人困惑?

属性词汇表输出一个字典,其中所有ngram都是字典键,相应的值是tfidf矩阵中每个ngram特征的列位置。get_feature_names方法输出一个列表,其中NGRAM根据每个特征的列位置显示。因此,您可以使用其中一个来确定哪个tfidf列对应于哪个功能。在下面的示例中,使用get_feature_names的输出来命名列,tfidf矩阵很容易转换为熊猫数据帧。还要注意的是,所有值的权重相等,所有权重的平方和等于一

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Train the vectorizer
text="this is a simple example"
singleTFIDF = TfidfVectorizer(ngram_range=(1,2)).fit([text])
singleTFIDF.vocabulary_ # show the word-matrix position pairs

# Analyse the training string - text
single=singleTFIDF.transform([text])
single.toarray()  
属性词汇输出一个字典,其中所有ngram是字典键,相应的值是tfidf矩阵中每个ngram特征的列位置。get_feature_names方法输出一个列表,其中NGRAM根据每个特征的列位置显示。因此,您可以使用其中一个来确定哪个tfidf列对应于哪个功能。在下面的示例中,使用get_feature_names的输出来命名列,tfidf矩阵很容易转换为熊猫数据帧。还要注意的是,所有值的权重相等,所有权重的平方和等于一

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Train the vectorizer
text="this is a simple example"
singleTFIDF = TfidfVectorizer(ngram_range=(1,2)).fit([text])
singleTFIDF.vocabulary_ # show the word-matrix position pairs

# Analyse the training string - text
single=singleTFIDF.transform([text])
single.toarray()  

啊,我明白了。获取功能输出的顺序与tfidf矩阵中列的顺序相同?其实我不明白的输出只是单不与toarray。我有0,990.045这样的行,所以最后一列是我认为的权重,但是元组是关于什么的呢?谢谢single的输出只是对象信息:。也许值得再次运行代码来验证这一点。我无法复制您评论的0,99 0.045。实际上,printsingle输出的信息与single.toarray相同,但格式略有不同-索引元组行、列以及每个功能的相应权重:printsingle 0、6 0.3779644730092272 0、5 0.3779644730092272 0、4 0.3779644730092272 0、,3 0.3779644730092272 0、2 0.3779644730092272 0、1 0.3779644730092272 0、0.3779644730092272Pandas和tfidf对象有多种处理数据的方法,但如果没有对目标的详细描述,则无法帮助您。请考虑再问一个问题。你是什么意思?什么是IDFFY?啊,我明白了。获取功能输出的顺序与tfidf矩阵中列的顺序相同?其实我不明白的输出只是单不与toarray。我有0,990.045这样的行,所以最后一列是我认为的权重,但是元组是关于什么的呢?谢谢single的输出只是对象信息:。也许值得再次运行代码来验证这一点。我无法复制您评论的0,99 0.045。实际上,printsingle输出的信息与single.toarray相同,但格式略有不同-索引元组行、列以及每个功能的相应权重:printsingle 0、6 0.3779644730092272 0、5 0.3779644730092272 0、4 0.3779644730092272 0、,3 0.3779644730092272 0、2 0.3779644730092272 0、1 0.3779644730092272 0、0.3779644730092272Pandas和tfidf对象有多种处理数据的方法,但如果没有对目标的详细描述,则无法帮助您。请考虑再问一个问题。你是什么意思?什么是IDFY?