用于识别文章主题的python库

用于识别文章主题的python库,python,statistics,nlp,identifier,corpus,Python,Statistics,Nlp,Identifier,Corpus,我收集了大量的文章,80.000篇,我想摘录那些关于一个主题的文章。是否有一个python库或脚本,我可以在其中输入一个手动选择的关于主题a的文章样本,然后通过比较使用的单词及其频率,从归档中提取关于主题a的文章 我已经读过Dunning方法,但是是否有一个现成的脚本,我最好使用python 感谢查看Natural Language Toolkit(),它是一个优秀的Python库,用于处理自然语言语料库(如您的文章集)并从中提取含义。另外,根据您还想做什么,我建议将scikit学习库()用于其

我收集了大量的文章,80.000篇,我想摘录那些关于一个主题的文章。是否有一个python库或脚本,我可以在其中输入一个手动选择的关于主题a的文章样本,然后通过比较使用的单词及其频率,从归档中提取关于主题a的文章

我已经读过Dunning方法,但是是否有一个现成的脚本,我最好使用python


感谢

查看Natural Language Toolkit(),它是一个优秀的Python库,用于处理自然语言语料库(如您的文章集)并从中提取含义。另外,根据您还想做什么,我建议将scikit学习库()用于其他机器学习任务,而不是提取的文本

让我把我的建议正式化,哪怕只是为了子孙后代

据我所知,没有任何东西可以做你想做的一切,你可以免费得到。要支付某些费用,请搜索“谷歌企业搜索”

1.)使用JSON为文档编制索引。设置起来非常简单。弹性搜索有很多补救性搜索功能,这些功能不会直接解决您的问题,但可以让您在尝试构建自己的搜索引擎时进行简单的关键字搜索


2.)要按主题进行搜索,您必须编写学习程序。一个非常简单的问题,实际上是解决问题的一个很好的起点,就是。该示例将为您提供一个起点。

这些文章是机器可读格式的吗?如果是这样的话,您最好使用弹性搜索:。我有两个存档,一个是一组txt文件。另一个是《纽约时报》档案,我正在使用他们的API访问它。纽约时报API没有任何搜索功能?是的,它有,但我要找的不是一个简单的搜索,而是提取所有讨论的文章,例如阿拉伯之春。关键词“阿拉伯之春”并不一定出现在所有的文章中。我不认为你会发现任何简单的“只起作用”——你所描述的是一个功能齐全的搜索引擎。我认为,您可以使用nltk.scikits-learn编写一个,但我认为没有现成的免费版本供您使用。除此之外,为了让搜索引擎工作,你必须为你计划使用的《纽约时报》文章编制索引。这意味着从纽约时报网站下载图书馆,我想他们可能会对此持异议。