Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/311.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 通过Gensim查找不可见文档的主题_Python_Nlp_Latent Semantic Indexing_Gensim - Fatal编程技术网

Python 通过Gensim查找不可见文档的主题

Python 通过Gensim查找不可见文档的主题,python,nlp,latent-semantic-indexing,gensim,Python,Nlp,Latent Semantic Indexing,Gensim,我正在使用Gensim进行一些大规模的主题建模。我很难理解如何为一个看不见(非索引)的文档确定预测主题。例如:我有2500万个文档,我已经在LSA(和LDA)空间中转换为向量。现在我想找出一个新文档的主题,我们称之为x 根据Gensim文档,我可以使用: topics = lsi[doc(x)] 其中doc(x)是将x转换为向量的函数 然而,问题是上面的变量topics返回一个向量。如果我将x与其他文档进行比较,那么向量是有用的,因为它允许我找到它们之间的余弦相似性,但我无法实际返回与x本身相

我正在使用Gensim进行一些大规模的主题建模。我很难理解如何为一个看不见(非索引)的文档确定预测主题。例如:我有2500万个文档,我已经在LSA(和LDA)空间中转换为向量。现在我想找出一个新文档的主题,我们称之为x

根据Gensim文档,我可以使用:

topics = lsi[doc(x)]
其中doc(x)是将x转换为向量的函数

然而,问题是上面的变量topics返回一个向量。如果我将x与其他文档进行比较,那么向量是有用的,因为它允许我找到它们之间的余弦相似性,但我无法实际返回与x本身相关的特定单词

是我遗漏了什么,还是Gensim没有这种能力

谢谢,

编辑

拉斯曼有答案

我可以通过以下方式显示主题:

for t in topics:
    print lsi.show_topics(t[0])

LSI模型上的
[]
返回的向量实际上是
(主题、权重)
对的列表。您可以通过该方法检查主题

我可以通过以下方式显示主题:

for t in topics:
    print lsi.show_topics(t[0])
对于主题中的t: 打印lsi.show_主题(t[0])

我只是想指出解决方案代码中的一个很小但很重要的错误:您需要使用show_topic()函数,而不是show_topic**s**()函数


另外,我知道这应该作为评论而不是答案发布,但我目前的声誉分数还不允许评论

啊!!这就是我的问题,我是在假设lsi[doc]是一个向量的情况下运行的。我看过show_topics方法,但认为它不适用。谢谢你的帮助。你能分享一下你是如何将x转换成向量的吗?非常感谢!