Python 数据清理：在可变公司名称内分组_Python_Sas_Stata

Python 数据清理：在可变公司名称内分组

python sas stata

Python 数据清理：在可变公司名称内分组,python,sas,stata,Python,Sas,Stata,因此，我们正在对连锁经营的养老院进行一些研究。我们有一份9000多家养老院的企业所有权清单。现在，如果我将这些数据合并到任何东西中，我认为这不会是一个太大的挑战，但我被要求对相互关联的设施进行分组，以便进行另一次分析。例如： ABCM ABCM公司 ABCM公司 ABCM公司我已经删除了所有多余的空格，非字母数字的，并对所有内容进行了升级。只要想办法在90%的准确度内，我就能做到这一点。在同一个变量中，最重要的部分就是让我失望的部分。我有一些其他的细节，比如所有权、状态、zip等等。如果有帮

因此，我们正在对连锁经营的养老院进行一些研究。我们有一份9000多家养老院的企业所有权清单。现在，如果我将这些数据合并到任何东西中，我认为这不会是一个太大的挑战，但我被要求对相互关联的设施进行分组，以便进行另一次分析。例如： ABCM ABCM公司 ABCM公司 ABCM公司

我已经删除了所有多余的空格，非字母数字的，并对所有内容进行了升级。只要想办法在90%的准确度内，我就能做到这一点。在同一个变量中，最重要的部分就是让我失望的部分。我有一些其他的细节，比如所有权、状态、zip等等。如果有帮助的话，我会使用STATA、SAS和Python

欢迎来到SO

从广义上讲，字符串匹配是一种痛苦，无论您使用的是什么软件，在大多数情况下都需要人工干预才能产生令人满意的结果

在Stata中，您可能需要尝试

matchit

（

ssc安装matchit

）进行模糊字符串合并。我将不详细介绍（我建议您查看帮助文件，它的概述非常好），但该命令返回与多个相似项匹配的每个字符串-其中“相似”取决于所选的方法，您可以为保留或丢弃的相似性级别指定阈值

尽管有了以上所有的选择，最后一步还是取决于你：我的个人经验告诉我，无论你有多严格，你最终都会遇到一些“误报”，你必须自己解决

祝你好运

试试sas的模糊匹配功能，比如编辑距离。非常感谢您的回复。在来这里之前，我确实在Stata实现了Matchit，但是结果有很多误报。最终，我将咬紧牙关，通过消除所有非字母数字字符、重复数据消除等，尽可能减少重复条目。这将减少到3000个名称，我将不得不苦读这些名称。谢谢你的建议！