String 将全名整理成名、姓等列

String 将全名整理成名、姓等列,string,text,sanitization,normalizing,String,Text,Sanitization,Normalizing,我有一个CSV文件,其中有一列不同格式的全名。有些包括后缀和首字母。有成千上万的记录 我想将每个记录拆分为单独的列,用于存在的全名的每个部分。最后一栏将是: 头衔 名字 中间名 姓 后缀 以下是一些不同名称的示例: 约翰·史密斯 多伊,简,工商管理硕士 莎拉·约翰逊夫人 史蒂文p利特尔 弗雷德里克,J.S,D.D.S S莫里森,奥斯卡博士 弗雷德·琼斯,工商管理硕士 加拉廷 小莫里斯,加里B 如果全名没有标准格式,那么将其拆分为单独的列是什么好方法?你被套住了。对于你能想到的任何规则,可能都有一

我有一个CSV文件,其中有一列不同格式的全名。有些包括后缀和首字母。有成千上万的记录

我想将每个记录拆分为单独的列,用于存在的全名的每个部分。最后一栏将是:

头衔

名字

中间名

后缀

以下是一些不同名称的示例:

约翰·史密斯

多伊,简,工商管理硕士

莎拉·约翰逊夫人

史蒂文p利特尔

弗雷德里克,J.S,D.D.S

S莫里森,奥斯卡博士

弗雷德·琼斯,工商管理硕士

加拉廷

小莫里斯,加里B


如果全名没有标准格式,那么将其拆分为单独的列是什么好方法?

你被套住了。对于你能想到的任何规则,可能都有一个反例。例如,“冯·特拉普男爵”:男爵是头衔还是名字?冯是名、中名还是姓的一部分?如果您被要求将此输入硬塞进需要这些特定字段的其他人的数据库,我将向您表示哀悼。如果您对数据库布局有控制权,请考虑只使用一个“名称”字段,并按提供的方式输入它,而不是试图解析它。这里是一个关于主题的很好的读法:看看这个小摘要,假设它是整个数据集的代表,我认为获得任何类型的数据质量的唯一方法是使用空格作为分隔符分割每条记录,然后对照名称词典检查每条记录的每个字段的姓氏和名字,以便获得一定的准确性。当然,你仍然会犯很多错误,因为很多人都会以名字作为姓氏,反之亦然。你被套住了。对于你能想到的任何规则,可能都有一个反例。例如,“冯·特拉普男爵”:男爵是头衔还是名字?冯是名、中名还是姓的一部分?如果您被要求将此输入硬塞进需要这些特定字段的其他人的数据库,我将向您表示哀悼。如果您对数据库布局有控制权,请考虑只使用一个“名称”字段,并按提供的方式输入它,而不是试图解析它。这里是一个关于主题的很好的读法:看看这个小摘要,假设它是整个数据集的代表,我认为获得任何类型的数据质量的唯一方法是使用空格作为分隔符分割每条记录,然后对照名称词典检查每条记录的每个字段的姓氏和名字,以便获得一定的准确性。当然,你仍然会犯很多错误,因为很多人会以名字作为姓氏,反之亦然。