将城市名称映射到国家/地区-python?

将城市名称映射到国家/地区-python?,python,nlp,data-science,data-extraction,Python,Nlp,Data Science,Data Extraction,我有一个数据框,代表一些人的位置 此数据帧未清理,名称混乱。一些行只有国家名称,其他行有名称和城市,其他行只有城市。我也有一些不是英语的句子 如何将python与NLP结合使用来整理此数据集并获得同质数据集 以下是数据集的屏幕截图: 提前感谢我无法发表评论,但您不清楚您到底想从本系列中提取什么?如果您只是试图找到“命名位置”的每个实例并从中生成新的系列,那么您可能正在寻找(NER)。是从NER开始的好地方,他们已经了解了如何使用它来获取特定类型的命名实体(参见第5节,命名实体识别) 简言之,我

我有一个数据框,代表一些人的位置

此数据帧未清理,名称混乱。一些行只有国家名称,其他行有名称和城市,其他行只有城市。我也有一些不是英语的句子

如何将python与NLP结合使用来整理此数据集并获得同质数据集

以下是数据集的屏幕截图:


提前感谢

我无法发表评论,但您不清楚您到底想从本系列中提取什么?如果您只是试图找到“命名位置”的每个实例并从中生成新的系列,那么您可能正在寻找(NER)。是从NER开始的好地方,他们已经了解了如何使用它来获取特定类型的命名实体(参见第5节,命名实体识别)

简言之,我将从以下内容开始

import nltk
ser = #<your series of strings>
locations = df.apply(lambda x:nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize(str(x)))))
导入nltk
ser=#
locations=df.apply(lambda x:nltk.ne_chunk(nltk.pos_标记(nltk.word_标记化)(str(x '))))
但是NLP是一项复杂的任务,NER尤其困难