Neural network 使用不可靠数据的字符串模式匹配_Neural Network_String Matching_Fuzzy Search

Neural network 使用不可靠数据的字符串模式匹配

neural-network

Neural network 使用不可靠数据的字符串模式匹配,neural-network,string-matching,fuzzy-search,Neural Network,String Matching,Fuzzy Search,我知道关于字符串模式匹配有几个方面，但我觉得我的情况略有不同我有一个用户输入的索赔编号列表，每个索赔编号都是唯一的。每个索赔编号可以采用不同的格式，这完全取决于用户以及他们提供给我们的实际完整索赔编号的多少。我们不知道保险公司的索赔格式是什么，他们不会与我们分享假设我们的用户输入了以下索赔编号保险承运人X索赔编号： 04756G215 04759Q696 04760G279 04760T844 00631F546 006G34549 006J73029 保险承运人Y索赔编号： 000628

我知道关于字符串模式匹配有几个方面，但我觉得我的情况略有不同

我有一个用户输入的索赔编号列表，每个索赔编号都是唯一的。每个索赔编号可以采用不同的格式，这完全取决于用户以及他们提供给我们的实际完整索赔编号的多少。我们不知道保险公司的索赔格式是什么，他们不会与我们分享

假设我们的用户输入了以下索赔编号

保险承运人X索赔编号： 04756G215 04759Q696 04760G279 04760T844 00631F546 006G34549 006J73029

保险承运人Y索赔编号： 000628948-014 01-VK4994-0 01-VW6183-4 01-WC20436 12082356 01VL0063-6 01WB16121 03-016298-2 03-165476-3 1000-66-0792 1000-66-3808 1000-67-8667 1000-68-1360 1000-68-1686 1000-68-8494 1000-69-5647 1000-69-6905

保险承运人Z： 42RBB903752 444F09799 51RBB672507 51RBC153279 55RBB120866 55RBB339718

正如您所看到的，不同的格式。另外，我确信我不能依靠用户输入正确的代码，他们经常忽略其中的一部分，因为该部分可能包含一些索赔办公室代码，我们根本不知道

知道了这一点，我想在一个系统中输入一个索赔编号，告诉我它可能属于哪个承运人

所以55RBB339719很可能会给我carrier Z

神经网络是未来的发展方向吗？模糊逻辑

更新：这里有一个要匹配的字符串模式 51RAB435220

正如你所看到的，它是相同的模式（2位，3个字符，6位）

但是，用户可以输入RAB435220，因为前两位数字可能不重要，这意味着它们可能是部门代码，而不是实际的索赔编号。可能只有最后6位是有效数字。

困难的是我们不知道有效数字是什么。

如果其中有破折号，载体Y，如果前四个字符中有R、B或F，那么载体Z，否则载体X。这会捕获所有测试用例，不是吗？“我们不知道保险公司的索赔格式是什么，他们不会与我们分享。”-什么？为什么不呢？有时候用户会忽略破折号，因为他们很懒，不太在意。不幸的是，这些用户不在我们的控制之下。我们不知道格式，因为我们的运营商喜欢保护他们的小秘密，即使我们是他们的重要供应商。我有一个非常小的样本，重点是我们不知道我们的用户将省略或包含什么。您应该尝试编辑距离（Levenstein）或序列对齐（Smith waterman，Neederman Wunsch）的算法，我不确定哪一个最适合您的场景。如果要搜索的文本很长：使用近似字符串匹配（但后一种方法会将不匹配限制在您选择的固定数量）。我不确定任何距离类型搜索或近似搜索是否真的能在这里工作。数字可以完全不同，但是模式可能相似（三个数字、三个字符、三个以上的数字）。最好通过添加这样的场景来更新您的示例。