Python 主题或标记建议算法_Python_Machine Learning_Nlp_Topic Modeling

Python 主题或标记建议算法

python machine-learning nlp

Python 主题或标记建议算法,python,machine-learning,nlp,topic-modeling,Python,Machine Learning,Nlp,Topic Modeling,问题是：当给出一段文字时，我想提出可能的主题。例如，一篇关于科比·布莱恩特的新闻文章会建议使用诸如“篮球”、“nba”、“体育”之类的标签我有一个相当大的培训数据集（350k+），其中包括用户分配给文本的文本体和标记。大约有4万个预先存在的主题；但是，许多主题中没有太多条目。我想说的是，只有大约5千个主题有超过10个条目。用户无法分配系统中不存在的主题。我还想包括这一点有人对算法的使用有什么建议吗如果有人对python库也有任何建议，那就太棒了。也有人尝试过类似的问题——这里有一个例子——

问题是：当给出一段文字时，我想提出可能的主题。例如，一篇关于科比·布莱恩特的新闻文章会建议使用诸如“篮球”、“nba”、“体育”之类的标签

我有一个相当大的培训数据集（350k+），其中包括用户分配给文本的文本体和标记。大约有4万个预先存在的主题；但是，许多主题中没有太多条目。我想说的是，只有大约5千个主题有超过10个条目。用户无法分配系统中不存在的主题。我还想包括这一点

有人对算法的使用有什么建议吗

如果有人对python库也有任何建议，那就太棒了。

也有人尝试过类似的问题——这里有一个例子——stackoverflow。当您编写问题时，stackoverflow本身会建议一些标记，而无需您的干预，尽管您可以手动添加或删除它们

开箱即用的分类会失败，因为标签的数量实在太多了。你可以从两个方向来解决这个问题

近邻简单、快速、有效。您有一个带标签的训练集。当新文档出现时，您会查找最接近的匹配项，例如“标记”、“培训”、“数据集”、“标签”等词帮助您的问题映射到StackOverflow上的其他类似问题。在这些问题中，机器学习标签就在那里——所以这个标签被提出了。最好的实施方法是索引您的培训数据（搜索引擎策略）。您可以使用Lucene、Elastic Search或类似的工具。当新文档出现时，将其用作查询并搜索以前存储的前10个匹配文档。调查他们的标签。对标签进行排序，并使用文档的分数来确定标签的重要性。完成了

概率模型想法在分类线上，但现成的工具不会帮你。检查工作，比如，或

如果你有这个问题，作为长期学术项目或研究的一部分，研究方法2会更好。但是，如果您需要现成的解决方案，请使用方法1Lucene是一个伟大的索引工具，即使在生产中也可以使用。它最初是用Java编写的，但是您可以很容易地找到Python的包装器。另一种选择是弹性搜索、Katta搜索等等

p、在处理标记分数时，需要进行大量实验。

您需要在问题中添加更多内容。对于这个问题有很多方法。这很大程度上取决于（1）数据大小-你有多少篇新闻文章（2）唯一标签的数量-语料库中有多少标签？如果数字是10与1000（3）之间有很大的区别。到目前为止，你试过并读过什么？这对于解释堆栈溢出很重要。并从问题中删除“谢谢”。它没有意义。你的语料库中有多少独特的标签？40k。刚刚编辑了我的帖子。谢谢你的建议太好了。我以前也处理过类似的问题，只有大约5000个标签中有10个以上的条目。但是有些标签真的很大。哈哈多你对在文档之间建立一个“相似性分数”有什么建议吗？有很多选择。关于它的论文已经有数百篇了。如果你使用Lucene，这个工具本身应该告诉你一些你可以利用的相似性分数。