Python 主题或标记建议算法
问题是:当给出一段文字时,我想提出可能的主题。例如,一篇关于科比·布莱恩特的新闻文章会建议使用诸如“篮球”、“nba”、“体育”之类的标签 我有一个相当大的培训数据集(350k+),其中包括用户分配给文本的文本体和标记。大约有4万个预先存在的主题;但是,许多主题中没有太多条目。我想说的是,只有大约5千个主题有超过10个条目。用户无法分配系统中不存在的主题。我还想包括这一点 有人对算法的使用有什么建议吗Python 主题或标记建议算法,python,machine-learning,nlp,topic-modeling,Python,Machine Learning,Nlp,Topic Modeling,问题是:当给出一段文字时,我想提出可能的主题。例如,一篇关于科比·布莱恩特的新闻文章会建议使用诸如“篮球”、“nba”、“体育”之类的标签 我有一个相当大的培训数据集(350k+),其中包括用户分配给文本的文本体和标记。大约有4万个预先存在的主题;但是,许多主题中没有太多条目。我想说的是,只有大约5千个主题有超过10个条目。用户无法分配系统中不存在的主题。我还想包括这一点 有人对算法的使用有什么建议吗 如果有人对python库也有任何建议,那就太棒了。也有人尝试过类似的问题——这里有一个例子——
如果有人对python库也有任何建议,那就太棒了。也有人尝试过类似的问题——这里有一个例子——stackoverflow。当您编写问题时,stackoverflow本身会建议一些标记,而无需您的干预,尽管您可以手动添加或删除它们 开箱即用的分类会失败,因为标签的数量实在太多了。你可以从两个方向来解决这个问题
p、 在处理标记分数时,需要进行大量实验。您需要在问题中添加更多内容。对于这个问题有很多方法。这很大程度上取决于(1)数据大小-你有多少篇新闻文章(2)唯一标签的数量-语料库中有多少标签?如果数字是10与1000(3)之间有很大的区别。到目前为止,你试过并读过什么?这对于解释堆栈溢出很重要。并从问题中删除“谢谢”。它没有意义。你的语料库中有多少独特的标签?40k。刚刚编辑了我的帖子。谢谢你的建议太好了。我以前也处理过类似的问题,只有大约5000个标签中有10个以上的条目。但是有些标签真的很大。哈哈多你对在文档之间建立一个“相似性分数”有什么建议吗?有很多选择。关于它的论文已经有数百篇了。如果你使用Lucene,这个工具本身应该告诉你一些你可以利用的相似性分数。