Algorithm 带加权滤波器的字符串模式识别算法?
是否有模式识别算法可以指定匹配或缺失某些参数的权重?例如,假设我有3个字符串:Algorithm 带加权滤波器的字符串模式识别算法?,algorithm,machine-learning,pattern-matching,pattern-recognition,Algorithm,Machine Learning,Pattern Matching,Pattern Recognition,是否有模式识别算法可以指定匹配或缺失某些参数的权重?例如,假设我有3个字符串: str1 = Samsung 11.6" 64GB Slate PC Tablet with Wi-Fi - Black str2 = Samsung Series 7 XE700T1A-A05US 11.6-Inch Slate (64 GB, Win 7 Pro) str3 = Samsung Series 7 XE700T1A-A03US 11.6-Inch Slate (128 GB SSD, Win 7
str1 = Samsung 11.6" 64GB Slate PC Tablet with Wi-Fi - Black
str2 = Samsung Series 7 XE700T1A-A05US 11.6-Inch Slate (64 GB, Win 7 Pro)
str3 = Samsung Series 7 XE700T1A-A03US 11.6-Inch Slate (128 GB SSD, Win 7 HP)
我想匹配str2和str1,因为它们有相等的GB,即使传统的字符串距离会说str2更接近str3。实际上,我希望任何东西都能处理大量不同权重的参数
任何指向正确方向的指针都会受到欢迎。您可能想做的是开发一个解析器,从字符串中提取相关信息,然后对其进行加权,而不是对字符串本身进行操作 这可能包括生成一组正则表达式来提取您想要的花絮(这些被称为“功能”,例如GB),或者使用更复杂的解析或NLP技术。然后你可以自己开发一个权重函数,或者使用某种类型的(相似性)或(分类) 对于您的简单示例,生成一个看起来像
GB[0-9]+
的正则表达式应该足以进行比较
{Number}{Space}?“GB”
,或商标和系列的{TradeMark}{Space}”系列{Space}{Number}
李>