Neural network 使用不可靠数据的字符串模式匹配

Neural network 使用不可靠数据的字符串模式匹配,neural-network,string-matching,fuzzy-search,Neural Network,String Matching,Fuzzy Search,我知道关于字符串模式匹配有几个方面,但我觉得我的情况略有不同 我有一个用户输入的索赔编号列表,每个索赔编号都是唯一的。每个索赔编号可以采用不同的格式,这完全取决于用户以及他们提供给我们的实际完整索赔编号的多少。我们不知道保险公司的索赔格式是什么,他们不会与我们分享 假设我们的用户输入了以下索赔编号 保险承运人X索赔编号: 04756G215 04759Q696 04760G279 04760T844 00631F546 006G34549 006J73029 保险承运人Y索赔编号: 000628

我知道关于字符串模式匹配有几个方面,但我觉得我的情况略有不同

我有一个用户输入的索赔编号列表,每个索赔编号都是唯一的。每个索赔编号可以采用不同的格式,这完全取决于用户以及他们提供给我们的实际完整索赔编号的多少。我们不知道保险公司的索赔格式是什么,他们不会与我们分享

假设我们的用户输入了以下索赔编号

保险承运人X索赔编号: 04756G215 04759Q696 04760G279 04760T844 00631F546 006G34549 006J73029

保险承运人Y索赔编号: 000628948-014 01-VK4994-0 01-VW6183-4 01-WC20436 12082356 01VL0063-6 01WB16121 03-016298-2 03-165476-3 1000-66-0792 1000-66-3808 1000-67-8667 1000-68-1360 1000-68-1686 1000-68-8494 1000-69-5647 1000-69-6905

保险承运人Z: 42RBB903752 444F09799 51RBB672507 51RBC153279 55RBB120866 55RBB339718

正如您所看到的,不同的格式。另外,我确信我不能依靠用户输入正确的代码,他们经常忽略其中的一部分,因为该部分可能包含一些索赔办公室代码,我们根本不知道

知道了这一点,我想在一个系统中输入一个索赔编号,告诉我它可能属于哪个承运人

所以55RBB339719很可能会给我carrier Z

神经网络是未来的发展方向吗?模糊逻辑

更新: 这里有一个要匹配的字符串模式 51RAB435220

正如你所看到的,它是相同的模式(2位,3个字符,6位)

但是,用户可以输入RAB435220,因为前两位数字可能不重要,这意味着它们可能是部门代码,而不是实际的索赔编号。可能只有最后6位是有效数字。
困难的是我们不知道有效数字是什么。

如果其中有破折号,载体Y,如果前四个字符中有R、B或F,那么载体Z,否则载体X。这会捕获所有测试用例,不是吗?“我们不知道保险公司的索赔格式是什么,他们不会与我们分享。”-什么?为什么不呢?有时候用户会忽略破折号,因为他们很懒,不太在意。不幸的是,这些用户不在我们的控制之下。我们不知道格式,因为我们的运营商喜欢保护他们的小秘密,即使我们是他们的重要供应商。我有一个非常小的样本,重点是我们不知道我们的用户将省略或包含什么。您应该尝试编辑距离(Levenstein)或序列对齐(Smith waterman,Neederman Wunsch)的算法,我不确定哪一个最适合您的场景。如果要搜索的文本很长:使用近似字符串匹配(但后一种方法会将不匹配限制在您选择的固定数量)。我不确定任何距离类型搜索或近似搜索是否真的能在这里工作。数字可以完全不同,但是模式可能相似(三个数字、三个字符、三个以上的数字)。最好通过添加这样的场景来更新您的示例。