Python 词干地理词

Python 词干地理词,python,text,nlp,nltk,text-processing,Python,Text,Nlp,Nltk,Text Processing,地理实体的最佳词干生成方法是什么?我希望将数据框列中收集的地理实体转换为准确的区域名称,例如转换: ['India','Indian','Japanese','Europe','European'] 到 地理单词将从50000多条新闻中提取,因此我正在寻找一个能够在紧急情况下工作的函数。查找表怎么样?也许要一本字典。你可以提供更多的细节来澄清问题是什么吗?当然可以。问题是——我从300条新闻的描述中提取了一些地理实体,现在我在dataframe列中得到了一些类似上面提到的“list”的列表。在

地理实体的最佳词干生成方法是什么?我希望将数据框列中收集的地理实体转换为准确的区域名称,例如转换:

['India','Indian','Japanese','Europe','European']


地理单词将从50000多条新闻中提取,因此我正在寻找一个能够在紧急情况下工作的函数。

查找表怎么样?也许要一本字典。你可以提供更多的细节来澄清问题是什么吗?当然可以。问题是——我从300条新闻的描述中提取了一些地理实体,现在我在dataframe列中得到了一些类似上面提到的“list”的列表。在这里,我想提前清理和处理上述类似列表,以便获得准确的地区名称。感谢您的澄清。理想情况下,它将成为问题主体本身的一部分。我仍然不明白是什么让这成为NLP问题。你似乎已经确定了地理术语,并将它们放在一个列表中,如果只有300条新闻,那么这个列表就不会那么长。为什么不手工操作呢?谢谢@Triarion的回复。我知道它已经识别了地理单词。但是对于像“日语”、“欧洲人”、“美国人”这样的词。我想知道“日本”、“欧洲”、“美国”这些词。现在来看300条新闻,为什么不手动操作呢。最初,为了测试,我只拍摄了300条新闻。但我有超过50000条消息,我想稍后测试。所以,基本上我正在寻找一个能在危急情况下工作的函数。谢谢你的解释。所有这些解释都应该是问题的一部分,而不是评论。我编辑这个问题是为了向大家展示,并向上投票,因为我认为这是一个好问题。我希望你能得到答案,不幸的是我不知道答案。我想知道你是否也可以通过问这个问题得到一些想法。
['India','India','Japan','Europe','Europe']