Python NTL-识别文本兴趣/主题
我试图建立一个模型,试图识别所提供文本的兴趣类别/主题。例如: “我喜欢早些时候踢足球。” 将解析为顶级类别,如: “运动” 我不确定我在这里要实现的目标的正确术语是什么,所以谷歌没有找到任何可能有帮助的库。考虑到这一点,我的方法是:Python NTL-识别文本兴趣/主题,python,machine-learning,classification,nltk,Python,Machine Learning,Classification,Nltk,我试图建立一个模型,试图识别所提供文本的兴趣类别/主题。例如: “我喜欢早些时候踢足球。” 将解析为顶级类别,如: “运动” 我不确定我在这里要实现的目标的正确术语是什么,所以谷歌没有找到任何可能有帮助的库。考虑到这一点,我的方法是: 从文本中提取特征。使用标记对每个要素进行分类/标识名称/位置。可能会为此使用NTLK或Topia 对每个兴趣类别(“体育”、“视频游戏”、“政治”等)运行朴素贝叶斯分类器,并获得每个类别的相关性% 确定准确率最高的类别,并对文本进行分类 我的方法可能涉及为每个兴趣
一般来说,我在寻找一些关于我试图完成的事情的可行性的建议,但我的问题的关键是:a)我的方法是否正确?b) 是否有任何图书馆/资源可以提供帮助 你似乎知道很多正确的术语。尝试搜索“文档分类”。这是您试图解决的一般问题。在代表性语料库上训练的分类器将比您想象的更准确
- (a) 没有一种正确的方法。您概述的方法将 然而,工作
- (b) 对于这类工作来说,这是一个很棒的图书馆
- github上的这个可能已经完成了您想要完成的大部分任务李>
- 这就深入地解释了这个话题
- 如果你真的想进入这一领域,我相信谷歌学者搜索会找到数千篇关于计算机科学和语言学的学术文章