Artificial intelligence 比较电子产品规范的类似文本说明

Artificial intelligence 比较电子产品规范的类似文本说明,artificial-intelligence,fuzzy-logic,Artificial Intelligence,Fuzzy Logic,我有一份电子产品目录。我把它们放在SQL数据库中的字段/列中,如标题、制造商零件编号、UPC等。然后我浏览外部网站,列出亚马逊等电子产品。在大多数情况下,这会产生一些HTML文本,尽管我可以举例说明标题。我需要比较这个HTML文本(外部网站上网页的结果)是否描述了我拥有的产品 我理解这种比较并不准确,也就是说,我不希望这种情况100%正确。有什么办法可以这样做吗 虽然很难提供一个完整的示例,但让我们将比较仅限于两种产品的名称 标题我有:摩托罗拉Talkabout MH230R便携式-双向无线电-

我有一份电子产品目录。我把它们放在SQL数据库中的字段/列中,如标题、制造商零件编号、UPC等。然后我浏览外部网站,列出亚马逊等电子产品。在大多数情况下,这会产生一些HTML文本,尽管我可以举例说明标题。我需要比较这个HTML文本(外部网站上网页的结果)是否描述了我拥有的产品

我理解这种比较并不准确,也就是说,我不希望这种情况100%正确。有什么办法可以这样做吗

虽然很难提供一个完整的示例,但让我们将比较仅限于两种产品的名称

标题我有:摩托罗拉Talkabout MH230R便携式-双向无线电-FRS/GMRS 22频道-黄色(一包三个)

亚马逊名称:摩托罗拉MH230TPR巨型充电双向无线电3包,FRS/GMRS

这些代表相同的产品。有没有办法确定这些是否相似/相同?简单的文本比较是不行的

如果有工具来处理这个问题那就太好了。如果不是的话,我会很感激这个算法或者一些我可以用来进一步研究这个领域的指针

我懂C#和Java。我使用了一些与数值分析相关的人工智能/神经网络——特别是反向传播和遗传算法——来比较图像并找到最佳点。然而,我不知道如何处理文本数据

如果这个问题不清楚,请告诉我,我会尽力澄清我的描述。
谢谢大家

当然有很多算法可以处理字符串中的文本相似性和距离度量(例如,字符串)。以下是一些如何更具体地处理该问题的想法:

  • 设置一个带有品牌名称的字典,当两个产品字符串共享同一品牌名称时,在整体相似性函数中赋予它较高的权重
  • 如果匹配的数字较长,则为其指定一个高相似度值
  • 规范化输入文本字符串,以消除连字符和其他内容
  • 使用多个相似性度量
一般来说,如果你能将你对这些字符串的知识输入到你编写的代码中,而不是使用一般的方法,你会得到更好的结果。。。但是,既然你来自人工智能/神经网络背景。。。如果为输入字符串生成有用的描述符,您可以通过机器学习技术找出字符串的相似之处。为此,您需要一个足够大的已正确分配的匹配产品字符串库


但也许你需要一些非常简单的东西?然后调查一下

非常感谢。我已经建立了你建议的启发式方法。这在一定程度上是可行的,但我想知道人工智能是否能更好地解决这个问题。虽然我有一些人工智能经验,但我不知道如何处理文本和语言。您的解决方案似乎喜欢使用品牌名称,但它对我不起作用,因为有些品牌如HP可能模棱两可,例如Hewlett-Packard、H-P等。另一个例子是Linksys和Cisco指的是同一件事。将这些信息纳入规则的成本太高。我有一个手动匹配未解决匹配的系统。我认为人工智能系统可以从这些数据中学习,这样我就不必加入规则。我只是暗示。。。我认为机器学习技术确实有助于找到问题集的相关描述符,但总会有一些遗留的不确定性,必须手动解决。当你开始允许惠普和惠普使用同一品牌时,我认为匹配品牌名称仍然是一个好主意。这是一个巨大的任务,你正在尝试,有公司在那里出售统一的产品目录,就像你想创造好钱。我碰巧认识这样一家公司,他们从事这项业务已有多年了。nltk是一个用python处理自然语言的库。如果你愿意,你可以把用过的garmmar和它进行比较。在我目前的项目中,我尝试使用机器学习预测推特帖子的性别。Imho机器学习将改善您的结果,但不要期望获得一些非常棒的结果。