Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/304.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 主题或标记建议算法_Python_Machine Learning_Nlp_Topic Modeling - Fatal编程技术网

Python 主题或标记建议算法

Python 主题或标记建议算法,python,machine-learning,nlp,topic-modeling,Python,Machine Learning,Nlp,Topic Modeling,问题是:当给出一段文字时,我想提出可能的主题。例如,一篇关于科比·布莱恩特的新闻文章会建议使用诸如“篮球”、“nba”、“体育”之类的标签 我有一个相当大的培训数据集(350k+),其中包括用户分配给文本的文本体和标记。大约有4万个预先存在的主题;但是,许多主题中没有太多条目。我想说的是,只有大约5千个主题有超过10个条目。用户无法分配系统中不存在的主题。我还想包括这一点 有人对算法的使用有什么建议吗 如果有人对python库也有任何建议,那就太棒了。也有人尝试过类似的问题——这里有一个例子——

问题是:当给出一段文字时,我想提出可能的主题。例如,一篇关于科比·布莱恩特的新闻文章会建议使用诸如“篮球”、“nba”、“体育”之类的标签

我有一个相当大的培训数据集(350k+),其中包括用户分配给文本的文本体和标记。大约有4万个预先存在的主题;但是,许多主题中没有太多条目。我想说的是,只有大约5千个主题有超过10个条目。用户无法分配系统中不存在的主题。我还想包括这一点

有人对算法的使用有什么建议吗


如果有人对python库也有任何建议,那就太棒了。

也有人尝试过类似的问题——这里有一个例子——stackoverflow。当您编写问题时,stackoverflow本身会建议一些标记,而无需您的干预,尽管您可以手动添加或删除它们

开箱即用的分类会失败,因为标签的数量实在太多了。你可以从两个方向来解决这个问题

  • 近邻 简单、快速、有效。您有一个带标签的训练集。当新文档出现时,您会查找最接近的匹配项,例如“标记”、“培训”、“数据集”、“标签”等词帮助您的问题映射到StackOverflow上的其他类似问题。在这些问题中,机器学习标签就在那里——所以这个标签被提出了。最好的实施方法是索引您的培训数据(搜索引擎策略)。您可以使用Lucene、Elastic Search或类似的工具。当新文档出现时,将其用作查询并搜索以前存储的前10个匹配文档。调查他们的标签。对标签进行排序,并使用文档的分数来确定标签的重要性。完成了

  • 概率模型 想法在分类线上,但现成的工具不会帮你。检查工作,比如, 或

  • 如果你有这个问题,作为长期学术项目或研究的一部分,研究方法2会更好。但是,如果您需要现成的解决方案,请使用方法1Lucene是一个伟大的索引工具,即使在生产中也可以使用。它最初是用Java编写的,但是您可以很容易地找到Python的包装器。另一种选择是弹性搜索、Katta搜索等等


    p、 在处理标记分数时,需要进行大量实验。

    您需要在问题中添加更多内容。对于这个问题有很多方法。这很大程度上取决于(1)数据大小-你有多少篇新闻文章(2)唯一标签的数量-语料库中有多少标签?如果数字是10与1000(3)之间有很大的区别。到目前为止,你试过并读过什么?这对于解释堆栈溢出很重要。并从问题中删除“谢谢”。它没有意义。你的语料库中有多少独特的标签?40k。刚刚编辑了我的帖子。谢谢你的建议太好了。我以前也处理过类似的问题,只有大约5000个标签中有10个以上的条目。但是有些标签真的很大。哈哈多你对在文档之间建立一个“相似性分数”有什么建议吗?有很多选择。关于它的论文已经有数百篇了。如果你使用Lucene,这个工具本身应该告诉你一些你可以利用的相似性分数。