Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/336.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 数据清理:在可变公司名称内分组_Python_Sas_Stata - Fatal编程技术网

Python 数据清理:在可变公司名称内分组

Python 数据清理:在可变公司名称内分组,python,sas,stata,Python,Sas,Stata,因此,我们正在对连锁经营的养老院进行一些研究。我们有一份9000多家养老院的企业所有权清单。现在,如果我将这些数据合并到任何东西中,我认为这不会是一个太大的挑战,但我被要求对相互关联的设施进行分组,以便进行另一次分析。 例如: ABCM ABCM公司 ABCM公司 ABCM公司 我已经删除了所有多余的空格,非字母数字的,并对所有内容进行了升级。只要想办法在90%的准确度内,我就能做到这一点。在同一个变量中,最重要的部分就是让我失望的部分。我有一些其他的细节,比如所有权、状态、zip等等。如果有帮

因此,我们正在对连锁经营的养老院进行一些研究。我们有一份9000多家养老院的企业所有权清单。现在,如果我将这些数据合并到任何东西中,我认为这不会是一个太大的挑战,但我被要求对相互关联的设施进行分组,以便进行另一次分析。 例如: ABCM ABCM公司 ABCM公司 ABCM公司

我已经删除了所有多余的空格,非字母数字的,并对所有内容进行了升级。只要想办法在90%的准确度内,我就能做到这一点。在同一个变量中,最重要的部分就是让我失望的部分。我有一些其他的细节,比如所有权、状态、zip等等。如果有帮助的话,我会使用STATA、SAS和Python

欢迎来到SO

从广义上讲,字符串匹配是一种痛苦,无论您使用的是什么软件,在大多数情况下都需要人工干预才能产生令人满意的结果

在Stata中,您可能需要尝试
matchit
ssc安装matchit
)进行模糊字符串合并。我将不详细介绍(我建议您查看帮助文件,它的概述非常好),但该命令返回与多个相似项匹配的每个字符串-其中“相似”取决于所选的方法,您可以为保留或丢弃的相似性级别指定阈值

尽管有了以上所有的选择,最后一步还是取决于你:我的个人经验告诉我,无论你有多严格,你最终都会遇到一些“误报”,你必须自己解决


祝你好运

试试sas的模糊匹配功能,比如编辑距离。非常感谢您的回复。在来这里之前,我确实在Stata实现了Matchit,但是结果有很多误报。最终,我将咬紧牙关,通过消除所有非字母数字字符、重复数据消除等,尽可能减少重复条目。这将减少到3000个名称,我将不得不苦读这些名称。谢谢你的建议!