stata中字符串变量中单词的可能组合(变化)
我有一个包含学校名称的字符串变量,我需要在stata中找到该字符串变量中每个单词的所有可能组合: 例如,“学院”一词的变体为: 学院, 学院 阿克达米, aacdemy, dmcaamy, 阿塞迪, 等等stata中字符串变量中单词的可能组合(变化),stata,Stata,我有一个包含学校名称的字符串变量,我需要在stata中找到该字符串变量中每个单词的所有可能组合: 例如,“学院”一词的变体为: 学院, 学院 阿克达米, aacdemy, dmcaamy, 阿塞迪, 等等 我需要这个来标准化学校名称的原始数据,由于数据输入问题,每个单词都有很多拼写错误,就像上面为“academy”给出的那样 根据您的数据是否已经在Excel工作表或文件中,您可以使用regex尝试匹配所有可能的组合(找到时可能会修复它们),或者在将字符串放入Excel之前先解析字符串。在任何一种
我需要这个来标准化学校名称的原始数据,由于数据输入问题,每个单词都有很多拼写错误,就像上面为“academy”给出的那样 根据您的数据是否已经在Excel工作表或文件中,您可以使用regex尝试匹配所有可能的组合(找到时可能会修复它们),或者在将字符串放入Excel之前先解析字符串。在任何一种情况下,您都可以创建一个包含所有常见打字错误的文件(或Excel列表/表格/区域/等),并将每个打字错误选为正则表达式匹配,以便在与实际输入进行比较时使用 使regexp实际上能够找到所有可能的案例几乎是不可能的,特别是在存在非常相似(但正确)的学校名称的情况下。在任何情况下,directregexp都会非常混乱和复杂,因此我建议您首先查找正确的表单,排除它,然后使用(贪婪的)search/regex来查找键入的版本,从而解析数据。然后,您可以保存打字错误以将其用作过滤器/匹配/模式 要获得一些起始想法,请查看以下链接:
注意:您应该保留所有字符串/学校名称的计数,并最终获得与正确表单或任何regexp筛选器不匹配的所有名称的列表,以便您可以手动插入/更正这些名称。与Excel有什么关系?可能有Excel专业人士可以建议解决方案!不完全确定我是否完全理解您的问题,但您可能希望查看用户编写的命令
strgroup
。谢谢您的建议。我会调查的,谢谢!这似乎是解决这个问题的明智方法。