stata中字符串变量中单词的可能组合（变化）_Stata

stata中字符串变量中单词的可能组合（变化）

stata

stata中字符串变量中单词的可能组合（变化）,stata,Stata,我有一个包含学校名称的字符串变量，我需要在stata中找到该字符串变量中每个单词的所有可能组合：例如，“学院”一词的变体为：学院，学院阿克达米， aacdemy， dmcaamy，阿塞迪，等等我需要这个来标准化学校名称的原始数据，由于数据输入问题，每个单词都有很多拼写错误，就像上面为“academy”给出的那样根据您的数据是否已经在Excel工作表或文件中，您可以使用regex尝试匹配所有可能的组合（找到时可能会修复它们），或者在将字符串放入Excel之前先解析字符串。在任何一种

我有一个包含学校名称的字符串变量，我需要在stata中找到该字符串变量中每个单词的所有可能组合：

例如，“学院”一词的变体为：

学院，学院阿克达米， aacdemy， dmcaamy，阿塞迪，等等

我需要这个来标准化学校名称的原始数据，由于数据输入问题，每个单词都有很多拼写错误，就像上面为“academy”给出的那样

根据您的数据是否已经在Excel工作表或文件中，您可以使用regex尝试匹配所有可能的组合（找到时可能会修复它们），或者在将字符串放入Excel之前先解析字符串。在任何一种情况下，您都可以创建一个包含所有常见打字错误的文件（或Excel列表/表格/区域/等），并将每个打字错误选为正则表达式匹配，以便在与实际输入进行比较时使用

使regexp实际上能够找到所有可能的案例几乎是不可能的，特别是在存在非常相似（但正确）的学校名称的情况下。在任何情况下，directregexp都会非常混乱和复杂，因此我建议您首先查找正确的表单，排除它，然后使用（贪婪的）search/regex来查找键入的版本，从而解析数据。然后，您可以保存打字错误以将其用作过滤器/匹配/模式

要获得一些起始想法，请查看以下链接：

注意：您应该保留所有字符串/学校名称的计数，并最终获得与正确表单或任何regexp筛选器不匹配的所有名称的列表，以便您可以手动插入/更正这些名称。

与Excel有什么关系？可能有Excel专业人士可以建议解决方案！不完全确定我是否完全理解您的问题，但您可能希望查看用户编写的命令

strgroup

。谢谢您的建议。我会调查的，谢谢！这似乎是解决这个问题的明智方法。