Python NTL-识别文本兴趣/主题

Python NTL-识别文本兴趣/主题,python,machine-learning,classification,nltk,Python,Machine Learning,Classification,Nltk,我试图建立一个模型,试图识别所提供文本的兴趣类别/主题。例如: “我喜欢早些时候踢足球。” 将解析为顶级类别,如: “运动” 我不确定我在这里要实现的目标的正确术语是什么,所以谷歌没有找到任何可能有帮助的库。考虑到这一点,我的方法是: 从文本中提取特征。使用标记对每个要素进行分类/标识名称/位置。可能会为此使用NTLK或Topia 对每个兴趣类别(“体育”、“视频游戏”、“政治”等)运行朴素贝叶斯分类器,并获得每个类别的相关性% 确定准确率最高的类别,并对文本进行分类 我的方法可能涉及为每个兴趣

我试图建立一个模型,试图识别所提供文本的兴趣类别/主题。例如:

“我喜欢早些时候踢足球。”

将解析为顶级类别,如:

“运动”

我不确定我在这里要实现的目标的正确术语是什么,所以谷歌没有找到任何可能有帮助的库。考虑到这一点,我的方法是:

  • 从文本中提取特征。使用标记对每个要素进行分类/标识名称/位置。可能会为此使用NTLK或Topia
  • 对每个兴趣类别(“体育”、“视频游戏”、“政治”等)运行朴素贝叶斯分类器,并获得每个类别的相关性%
  • 确定准确率最高的类别,并对文本进行分类
  • 我的方法可能涉及为每个兴趣类别建立单独的语料库,我相信准确度会相当糟糕——我知道它永远不会那么准确


    一般来说,我在寻找一些关于我试图完成的事情的可行性的建议,但我的问题的关键是:a)我的方法是否正确?b) 是否有任何图书馆/资源可以提供帮助

    你似乎知道很多正确的术语。尝试搜索“文档分类”。这是您试图解决的一般问题。在代表性语料库上训练的分类器将比您想象的更准确

    • (a) 没有一种正确的方法。您概述的方法将 然而,工作
    • (b) 对于这类工作来说,这是一个很棒的图书馆
    关于此主题,网上还有大量其他信息,包括教程:

    • github上的这个可能已经完成了您想要完成的大部分任务
    • 这就深入地解释了这个话题
    • 如果你真的想进入这一领域,我相信谷歌学者搜索会找到数千篇关于计算机科学和语言学的学术文章

    您应该查看潜在的Dirichlet分配,它将为您提供没有标签的类别,因为ed chens始终是一个良好的开端。

    对于您来说,也许一个好主意是解析维基百科文章(定期提供其数据库的转储),并使用他们定义的类别作为您自己数据的模型。只解析“Category:”页面(像这样:)和只保存文章标题就足够了。如果你需要更精确的分类,你还可以检查定义每个分类的最具体的词。维基百科分类非常嘈杂,因为维基百科将包含不在分类中的内容,而只是相关的或感兴趣的内容。如果您想使用Wikipedia,我建议您使用Freebase类型/属性和Wikipedia文本。