Python 如何在多行文本中查找关键字?
我有一个应用程序,从一些新闻门户网站接收新闻,我想找到这个新闻的关键字,并保存在一个特殊的表中,但我不知道如何找到这些关键字 因为代码每5分钟运行一次,所以它使用了大量的服务器源代码,我希望没有繁重的代码 我自己有一个古老的想法,将文本按单词分割并计数,得到前5个单词,但几乎所有的关键字都应该是“a”或“the”等Python 如何在多行文本中查找关键字?,python,regex,beautifulsoup,Python,Regex,Beautifulsoup,我有一个应用程序,从一些新闻门户网站接收新闻,我想找到这个新闻的关键字,并保存在一个特殊的表中,但我不知道如何找到这些关键字 因为代码每5分钟运行一次,所以它使用了大量的服务器源代码,我希望没有繁重的代码 我自己有一个古老的想法,将文本按单词分割并计数,得到前5个单词,但几乎所有的关键字都应该是“a”或“the”等 有什么建议吗?查看自然语言工具包(),包括免费提供的。这将让你开始,尽管这是一个有点开放性的问题。你可以从古腾堡项目()下载一本英语词典,比如韦伯斯特的未删节词典,并对其进行代词和介
有什么建议吗?查看自然语言工具包(),包括免费提供的。这将让你开始,尽管这是一个有点开放性的问题。你可以从古腾堡项目()下载一本英语词典,比如韦伯斯特的未删节词典,并对其进行代词和介词分析,然后将结果作为一个在计算中忽略的单词列表 基于上述内容的快速而肮脏的解析实验提供了以下列表:
AMONGST A ABOON AGAINST AMID
AT ATAFTER BATING BEHITHER BESIDE
BESIDES BETWIXT DURANTE DURING EMFORTH
FOREBY FORENENST FROM HE HERS
HERSELF HIMSELF HIMSELVE HIR HIS
HO I ICH IDEM IK
INTO INWITH IT ITSELF MALGRE
MYSELF MYSELVEN O' OF ONESELF
ONTO OURSELVES OUTCEPT OUTTAKE PER
REGARDING RESPECTING SENZA SHE SITH
THAT THEM THEMSELVES THESE THILK
THOSE THRU THURGH THY THYSELF
UMBE UNNEAR UPON UPTILL US
VERSUS WE WHATE'ER WHATEVER WHATSOEVER
WHICH WHO WHOEVER WHOM WHOMSOEVER
WHOSE WHOSESOEVER WHOSO WHOSOEVER WITHOUTEN
YER YMEL YOU YOURS YOURSELF
YOW
如前所述,需要改进…听起来你需要一个停止词列表——一个包含“a”、“the”等的单词列表,你不允许它成为你的关键字列表的一部分。不过,LTK是一个更好的方法。