Parsing 比较来自不同网络的数据源(联盟营销)

Parsing 比较来自不同网络的数据源(联盟营销),parsing,affiliate,commission-junction,Parsing,Affiliate,Commission Junction,我正致力于将联盟销售整合到现有的几个网站中。我们正在使用一些通过不同网络(cj、shareasale、linkshare、avantlink)工作的商家 现在我的观察是,所有这些网络都以不同的格式提供数据源。但这不是什么大问题。我主要关心的是商家在同一产品上使用不同的名称。我不想遇到这些情况: a) 来自N个商家的同一产品的两个列表(如果标题稍有不同) b) 来自商家的N种不同产品的一个列表(如果我们不使用严格的比较算法) 我们希望尽可能地自动化一切,希望避免运营商一直扫描有问题的列表 这个问题

我正致力于将联盟销售整合到现有的几个网站中。我们正在使用一些通过不同网络(cj、shareasale、linkshare、avantlink)工作的商家

现在我的观察是,所有这些网络都以不同的格式提供数据源。但这不是什么大问题。我主要关心的是商家在同一产品上使用不同的名称。我不想遇到这些情况:

a) 来自N个商家的同一产品的两个列表(如果标题稍有不同)

b) 来自商家的N种不同产品的一个列表(如果我们不使用严格的比较算法)

我们希望尽可能地自动化一切,希望避免运营商一直扫描有问题的列表

这个问题通常是如何处理的

这个问题通常是如何处理的


这些场景通常由ORACLE、HP、Microsoft、IBM、Netezza或Teradata提供的数据仓库系统覆盖。

寻找在其提要中提供UPC代码的商家。它们具有普遍性。另外,在AvantLink中,您可以自定义自己的提要输出,这很好。

一分钟前,我实际上在看AvantLink的两个示例数据提要。以下是它们提供的字段列表(未过滤,因此我假设它是所有字段):

我想是的,有UPC是(几乎)理想的,但我正在看的两家商店(其中一家是REI)都不提供UPC


检查了Commission Junction和Sshareasale,这是一些大型商户,它们也不包括UPC。

我们在尝试从多个商户订阅源中折叠产品时遇到了类似的问题。我们所做的是根据他们的品牌(或制造商)+sku组合来折叠产品

我们的数据非常混乱,因此我们必须做一些工作来规范品牌和sku,以便产品能够很好地崩溃。我们有一份我们关心的品牌列表,并做了一些工作,将商家提供的品牌映射到我们的品牌中。e、 g.如果我们的系统中有一个“ACME”品牌,我们可能会将以下内容映射到该品牌:

A.C.M.E => ACME
ACME Inc. => ACME
Acme Incorporated => ACME
对于SKU,为了匹配,我们通常只去除任何非字母数字字符。e、 g.以下所有内容将映射到同一sku:

abc-123 => abc123
abc.123 => abc123
abc 123 => abc123
ab.c1.23 => abc123
因此,如果我们在一个提要中看到品牌“ACME Inc.”和sku“abc-123”,那么另一个提要中的品牌“A.C.M.E”和sku“abc 123”将崩溃

作为折叠过程的一部分,我们最终得到了多个名称/图像/描述/类别等。。。对于每个折叠的部分,需要选择“最佳”的一个显示在网站上


这是我们如何处理它的一个非常高层次的概述。

我们使用MySQL。另外,“处理”对我来说也不是很有用。他们是如何处理的?我不认为它可以100%自动化,并且在不产生错误结果的情况下工作。谢谢。但是请看我上面的评论。非常感谢!我不知道不同品牌的SKU是相同的,我认为SKU是特定于商家的(他们对库存进行内部分类的方式)。这取决于。。。有时商家提供制造商的sku,有时他们使用自己的内部sku。其他时候,他们将使用制造商sku的变体,包括一些特定于品牌的前缀或后缀(例如acme-abc-123)。如果商家只向您提供其内部sku,那么很难将该产品与其他商家提供的相同产品进行匹配。
abc-123 => abc123
abc.123 => abc123
abc 123 => abc123
ab.c1.23 => abc123