Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/batch-file/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
stata中字符串变量中单词的可能组合(变化)_Stata - Fatal编程技术网

stata中字符串变量中单词的可能组合(变化)

stata中字符串变量中单词的可能组合(变化),stata,Stata,我有一个包含学校名称的字符串变量,我需要在stata中找到该字符串变量中每个单词的所有可能组合: 例如,“学院”一词的变体为: 学院, 学院 阿克达米, aacdemy, dmcaamy, 阿塞迪, 等等 我需要这个来标准化学校名称的原始数据,由于数据输入问题,每个单词都有很多拼写错误,就像上面为“academy”给出的那样 根据您的数据是否已经在Excel工作表或文件中,您可以使用regex尝试匹配所有可能的组合(找到时可能会修复它们),或者在将字符串放入Excel之前先解析字符串。在任何一种

我有一个包含学校名称的字符串变量,我需要在stata中找到该字符串变量中每个单词的所有可能组合:

例如,“学院”一词的变体为:

学院, 学院 阿克达米, aacdemy, dmcaamy, 阿塞迪, 等等


我需要这个来标准化学校名称的原始数据,由于数据输入问题,每个单词都有很多拼写错误,就像上面为“academy”给出的那样

根据您的数据是否已经在Excel工作表或文件中,您可以使用regex尝试匹配所有可能的组合(找到时可能会修复它们),或者在将字符串放入Excel之前先解析字符串。在任何一种情况下,您都可以创建一个包含所有常见打字错误的文件(或Excel列表/表格/区域/等),并将每个打字错误选为正则表达式匹配,以便在与实际输入进行比较时使用

使regexp实际上能够找到所有可能的案例几乎是不可能的,特别是在存在非常相似(但正确)的学校名称的情况下。在任何情况下,directregexp都会非常混乱和复杂,因此我建议您首先查找正确的表单,排除它,然后使用(贪婪的)search/regex来查找键入的版本,从而解析数据。然后,您可以保存打字错误以将其用作过滤器/匹配/模式

要获得一些起始想法,请查看以下链接:


注意:您应该保留所有字符串/学校名称的计数,并最终获得与正确表单或任何regexp筛选器不匹配的所有名称的列表,以便您可以手动插入/更正这些名称。

与Excel有什么关系?可能有Excel专业人士可以建议解决方案!不完全确定我是否完全理解您的问题,但您可能希望查看用户编写的命令
strgroup
。谢谢您的建议。我会调查的,谢谢!这似乎是解决这个问题的明智方法。