Algorithm 对产品列表进行分类的算法?拿2块

Algorithm 对产品列表进行分类的算法?拿2块,algorithm,machine-learning,neural-network,classification,Algorithm,Machine Learning,Neural Network,Classification,几周前,我问了一个关于这个问题的问题,但我没有正确地问这个问题。因此,我在这里再次提出了一个更详细的问题,我希望得到一个更面向人工智能的答案 我有一份清单,上面列出了大致相同的产品。例如,在下面的列表中,它们都是希捷硬盘 希捷硬盘500Go 希捷笔记本电脑硬盘120Go 希捷梭鱼7200.12 ST3500418AS 500GB 7200 RPM SATA 3.0Gb/s硬盘驱动器 希捷全新shinny 500Go硬盘 希捷梭鱼7200.12 希捷FreeAgent桌面500GB外部硬盘银色72

几周前,我问了一个关于这个问题的问题,但我没有正确地问这个问题。因此,我在这里再次提出了一个更详细的问题,我希望得到一个更面向人工智能的答案

我有一份清单,上面列出了大致相同的产品。例如,在下面的列表中,它们都是希捷硬盘

  • 希捷硬盘500Go
  • 希捷笔记本电脑硬盘120Go
  • 希捷梭鱼7200.12 ST3500418AS 500GB 7200 RPM SATA 3.0Gb/s硬盘驱动器
  • 希捷全新shinny 500Go硬盘
  • 希捷梭鱼7200.12
  • 希捷FreeAgent桌面500GB外部硬盘银色7200RPM USB2.0零售版
  • 通用航空航天制造商劳德利
  • 马自达3 2010
  • 马自达2009 2.3L
  • 对于人类而言,硬盘驱动器3和5是相同的。我们可以更进一步,假设产品1、3、4和5是相同的,并将产品2和6归入其他类别

    在我之前的问题中,有人建议我使用特征提取。当我们有一个预定义描述的小数据集(所有硬盘驱动器)时,它工作得非常好,但是其他类型的描述呢?我不想开始为我的应用程序可能面临的所有描述编写基于正则表达式的功能提取器,它无法扩展有没有任何机器学习算法可以帮助我实现这一点?我能得到的描述范围非常广泛,第一行可能是冰箱,下一行可能是硬盘。我应该尝试采用神经网络路径吗?我的输入应该是什么

    谢谢你的帮助

    您应该同时查看和。您的类别似乎是开放的,因此表明集群可能更适合这个问题。 至于输入表示法,您可以尝试提取单词和字符。您的相似性度量可能是普通n-gram的计数,或者。您可能需要手动标记生成的集群。

    我将介绍一些方法。这将涉及训练分类器识别特定单词,以表示产品属于您的某个类别的可能性。例如,经过培训后,它可以认识到,如果产品描述中有“希捷”,99%的几率是硬盘,而如果有“马自达”,97%的几率是汽车。像“new”这样的词可能最终对任何分类都没有多大贡献,而这正是您所希望的工作方式

    这样做的缺点是,它通常需要相当大的培训数据库才能正常工作,但您可以对其进行设置,以便它在生产过程中继续修改其百分比(如果您注意到它对某些内容的分类不正确),最终会变得非常有效

    最近,贝叶斯技术被大量使用,所以阅读一下它的使用方法可能会更好