Algorithm 用(稍微不同的)名称标识相同产品的算法

Algorithm 用(稍微不同的)名称标识相同产品的算法,algorithm,machine-learning,k-means,bayesian,Algorithm,Machine Learning,K Means,Bayesian,我正在从二手相机交易平台挖掘数据 人们给同一种产品起不同的名字。我获得的数据如下: ... Canon 50mm f1.4 Canon 50mm 1.4 Canon 50mm 1.4 USM Canon 70-200mm f4L Canon 70-200mm f4 L ... many more 我的目标是训练一个系统将项目1-3识别为一种产品,而将项目4-5识别为另一种产品。在我的数据集中,我不知道有多少不同的产品 我读过这个 这表明贝叶斯分类是有用的。 然而,由于我不知道有多少产品,我无

我正在从二手相机交易平台挖掘数据

人们给同一种产品起不同的名字。我获得的数据如下:

...
Canon 50mm f1.4
Canon 50mm 1.4
Canon 50mm 1.4 USM
Canon 70-200mm f4L
Canon 70-200mm f4 L
...
many more 
我的目标是训练一个系统将
项目1-3
识别为一种产品,而将
项目4-5
识别为另一种产品。在我的数据集中,我不知道有多少不同的产品

我读过这个

这表明
贝叶斯分类
是有用的。 然而,由于我不知道有多少产品,我无法提供培训集

另一个答案是,应该使用
聚类
对名称相似的产品进行分组。同样,
K-means
只能在
K
(本例中不同产品的数量)已知时使用


那么在我的例子中,可以使用什么算法呢?你能以我的数据为例解释一下吗?谢谢

编辑距离函数(如Damerau Levenshtein)是一种可能性。二元图是另一种可能性。但你问的问题相当广泛。几乎有关于这个主题的书(记录链接)。@hatchet我不同意。使用编辑距离,“加农炮1.5”将被归类为比“加农炮1.4 USM”更接近“加农炮1.4”。它可能是分类的特征之一,也可能是初始过滤器(但不是它本身)。@amit-你说得对。但我认为,任何对特定领域知识视而不见的模糊匹配技术都会有反例。我同意仅仅使用一个现成的算法是不够的。但这些算法有可能用于更全面的解决方案。这就是为什么我在评论中而不是回答他们。