Python 如何在多行文本中查找关键字?

Python 如何在多行文本中查找关键字?,python,regex,beautifulsoup,Python,Regex,Beautifulsoup,我有一个应用程序,从一些新闻门户网站接收新闻,我想找到这个新闻的关键字,并保存在一个特殊的表中,但我不知道如何找到这些关键字 因为代码每5分钟运行一次,所以它使用了大量的服务器源代码,我希望没有繁重的代码 我自己有一个古老的想法,将文本按单词分割并计数,得到前5个单词,但几乎所有的关键字都应该是“a”或“the”等 有什么建议吗?查看自然语言工具包(),包括免费提供的。这将让你开始,尽管这是一个有点开放性的问题。你可以从古腾堡项目()下载一本英语词典,比如韦伯斯特的未删节词典,并对其进行代词和介

我有一个应用程序,从一些新闻门户网站接收新闻,我想找到这个新闻的关键字,并保存在一个特殊的表中,但我不知道如何找到这些关键字

因为代码每5分钟运行一次,所以它使用了大量的服务器源代码,我希望没有繁重的代码

我自己有一个古老的想法,将文本按单词分割并计数,得到前5个单词,但几乎所有的关键字都应该是“a”或“the”等


有什么建议吗?

查看自然语言工具包(),包括免费提供的。这将让你开始,尽管这是一个有点开放性的问题。

你可以从古腾堡项目()下载一本英语词典,比如韦伯斯特的未删节词典,并对其进行代词和介词分析,然后将结果作为一个在计算中忽略的单词列表

基于上述内容的快速而肮脏的解析实验提供了以下列表:

AMONGST         A               ABOON           AGAINST         AMID            
AT              ATAFTER         BATING          BEHITHER        BESIDE          
BESIDES         BETWIXT         DURANTE         DURING          EMFORTH         
FOREBY          FORENENST       FROM            HE              HERS            
HERSELF         HIMSELF         HIMSELVE        HIR             HIS             
HO              I               ICH             IDEM            IK              
INTO            INWITH          IT              ITSELF          MALGRE          
MYSELF          MYSELVEN        O'              OF              ONESELF         
ONTO            OURSELVES       OUTCEPT         OUTTAKE         PER             
REGARDING       RESPECTING      SENZA           SHE             SITH            
THAT            THEM            THEMSELVES      THESE           THILK           
THOSE           THRU            THURGH          THY             THYSELF         
UMBE            UNNEAR          UPON            UPTILL          US              
VERSUS          WE              WHATE'ER        WHATEVER        WHATSOEVER      
WHICH           WHO             WHOEVER         WHOM            WHOMSOEVER      
WHOSE           WHOSESOEVER     WHOSO           WHOSOEVER       WITHOUTEN       
YER             YMEL            YOU             YOURS           YOURSELF        
YOW

如前所述,需要改进…

听起来你需要一个停止词列表——一个包含“a”、“the”等的单词列表,你不允许它成为你的关键字列表的一部分。不过,LTK是一个更好的方法。