Algorithm 用（稍微不同的）名称标识相同产品的算法_Algorithm_Machine Learning_K Means_Bayesian

Algorithm 用（稍微不同的）名称标识相同产品的算法

algorithm machine-learning

Algorithm 用（稍微不同的）名称标识相同产品的算法,algorithm,machine-learning,k-means,bayesian,Algorithm,Machine Learning,K Means,Bayesian,我正在从二手相机交易平台挖掘数据人们给同一种产品起不同的名字。我获得的数据如下： ... Canon 50mm f1.4 Canon 50mm 1.4 Canon 50mm 1.4 USM Canon 70-200mm f4L Canon 70-200mm f4 L ... many more 我的目标是训练一个系统将项目1-3识别为一种产品，而将项目4-5识别为另一种产品。在我的数据集中，我不知道有多少不同的产品我读过这个这表明贝叶斯分类是有用的。然而，由于我不知道有多少产品，我无

我正在从二手相机交易平台挖掘数据

人们给同一种产品起不同的名字。我获得的数据如下：

...
Canon 50mm f1.4
Canon 50mm 1.4
Canon 50mm 1.4 USM
Canon 70-200mm f4L
Canon 70-200mm f4 L
...
many more

我的目标是训练一个系统将

项目1-3

识别为一种产品，而将

项目4-5

识别为另一种产品。在我的数据集中，我不知道有多少不同的产品

我读过这个

这表明

贝叶斯分类

是有用的。然而，由于我不知道有多少产品，我无法提供培训集

另一个答案是，应该使用

聚类

对名称相似的产品进行分组。同样，

K-means

只能在

（本例中不同产品的数量）已知时使用

那么在我的例子中，可以使用什么算法呢？你能以我的数据为例解释一下吗？谢谢

编辑距离函数（如Damerau Levenshtein）是一种可能性。二元图是另一种可能性。但你问的问题相当广泛。几乎有关于这个主题的书（记录链接）。@hatchet我不同意。使用编辑距离，“加农炮1.5”将被归类为比“加农炮1.4 USM”更接近“加农炮1.4”。它可能是分类的特征之一，也可能是初始过滤器（但不是它本身）。@amit-你说得对。但我认为，任何对特定领域知识视而不见的模糊匹配技术都会有反例。我同意仅仅使用一个现成的算法是不够的。但这些算法有可能用于更全面的解决方案。这就是为什么我在评论中而不是回答他们。