Python 对NLP中的单词进行词干分析

Python 对NLP中的单词进行词干分析,python,stemming,Python,Stemming,谁能告诉我哪一种是最好的干燥剂。另外,我有一个文本,我只想在列表中的单词后面加上词干,剩下的标记保持原样。下面是我的代码 文字:2013年swot del swot分析强项弱势品牌nam valu售价7美元,’5 bil产品定制环境在merg和ACQUISE中的记录竞争直接选择繁忙模式普通计算机硬件产品定制服务差研发投资低pat投资组合太少零售loc低差异机会威胁扩大服务和企业解决方案忙通过ACQUISE获得mor pat加强其在新兴市场的压力平板电脑市场增长增长对smartphon和平板电脑的

谁能告诉我哪一种是最好的干燥剂。另外,我有一个文本,我只想在列表中的单词后面加上词干,剩下的标记保持原样。下面是我的代码

文字:2013年swot del swot分析强项弱势品牌nam valu售价7美元,’5 bil产品定制环境在merg和ACQUISE中的记录竞争直接选择繁忙模式普通计算机硬件产品定制服务差研发投资低pat投资组合太少零售loc低差异机会威胁扩大服务和企业解决方案忙通过ACQUISE获得mor pat加强其在新兴市场的压力平板电脑市场增长增长对smartphon和平板电脑的需求利润率declin on hardw produc笔记本电脑市场缓慢增长的rat意图竞争优势品牌nam.,“del在qual produc方面有着很强的品牌声誉,,“在merg和acquisit方面有竞争力,,”ov去年,del为merg和acquisit的成功花费了130亿美元,带来了pat、new cap、,“资产和技能繁忙”,“直接选择繁忙模式”,“del很难在这样的市场上竞争,或者至少很难回击失去的市场份额”,“意向竞争”,“公司fac意向在所有it繁忙区竞争”,“公司fac意向在所有it繁忙区竞争”,“公司fac意向在所有it繁忙区竞争”,“公司fac意向在所有it繁忙区竞争。”,与ac、appl、hp、ibm、联想和toshib合作的produc的品牌、技术、声誉、分销和范围。“]

词干分析器对每个失去原有意义的单词进行词干处理

单词列表是[force', “特色菜”, “耐久性”, "军事态势",, “长西服”, “强度”, “梅蒂埃”, "军力",, “强壮的衣服”, "实力",, “强项”, “持久性”, "成效",, “强点”, “特产”, "姿态",, "说服力",, “效力”, "军事能力",, "有力",, “强度水平”]

代码是:

 br = mechanize.Browser()
 br.set_handle_robots(False)
 br.addheaders = [('User-agent','Chrome')]
 html = br.open(url).read()
 titles = br.title()
 readable_article= Document(html).summary()
 readable_title = Document(html).short_title()
 soup = bs4.BeautifulSoup(readable_article)
 Final_Article = soup.text
    #final.append(titles)
    #final.append(url)
    #final.append(Final_Article)
 raw = nltk.clean_html(html)
 cleaned = re.sub(r'& ?(ld|rd)quo ?[;\]]', '\"', raw)
 tokens = nltk.wordpunct_tokenize(cleaned)
 lancaster = stem.lancaster.LancasterStemmer()
 word = words('strength')
 Words = [lancaster.stem(e) for e in word]
 t = [lancaster.stem(t) for t in tokens if t in Words]
 text = nltk.Text(t)
 find = ' '.join(str(e) for e in Words

请帮忙

我想你的问题更多的是基于观点的。每个词干分析器都是使用一些成熟的词干生成算法创建的。就我个人而言,我更喜欢波特词干算法,因为它简单且基本。您可以在此处阅读更多信息: