SSIS:仅针对特定行进行模糊分组
我正在Visual Studio 2012中使用SQL Server Integration Services,并尝试使用模糊分组组件查找不同客户引用的类似地址。下面是一些示例数据(): 我以前做过这项工作,比较所有行没有进一步限制是没有问题的。然而,今天,我只想比较SSIS:仅针对特定行进行模糊分组,ssis,sql-server-2012,fuzzy-comparison,Ssis,Sql Server 2012,Fuzzy Comparison,我正在Visual Studio 2012中使用SQL Server Integration Services,并尝试使用模糊分组组件查找不同客户引用的类似地址。下面是一些示例数据(): 我以前做过这项工作,比较所有行没有进一步限制是没有问题的。然而,今天,我只想比较CustomerId列中具有不同值的行。因此,关于我的样本数据,我对第1行和第2行之间的任何相似性以及第3行和第4行之间的任何相似性都不感兴趣。我想知道的是: 第3行与第1行或第5行重复(或“近亲”)的可能性有多大 第4行与第1行
CustomerId
列中具有不同值的行。因此,关于我的样本数据,我对第1行和第2行之间的任何相似性以及第3行和第4行之间的任何相似性都不感兴趣。我想知道的是:
提前感谢。如果组件不支持此功能,请确认 相反,我将使用模糊查找转换
在“高级”页面上,我会增加每次查找输出的最大匹配数并降低相似性阈值,然后将结果转储到SQL表中,然后使用WHERE子句查询输出表,该子句排除CustomerID匹配项。谢谢。在Fuzzy-Grouping组件的高级页面中,我看不到每次查找都要输出多少匹配项。这似乎只是一个模糊查找组件。但我可能能够使用查找组件;我试试看,然后再回来。
CREATE TABLE [tblAddresses] (
[AddressId] [int] IDENTITY(1,1) NOT NULL
,[AddressName] [nvarchar](20) NOT NULL
,[Street] [nvarchar](20) NULL
,[ZipCode] [nvarchar](10) NULL
,[Town] [nvarchar](20) NULL
,[CustomerId] [int] NOT NULL
)
INSERT INTO [tblAddresses] (
[AddressName]
,[Street]
,[ZipCode]
,[Town]
,[CustomerId]
) VALUES
(
'John Doe'
,'1447 Example Street'
,'28815'
,'Smallville'
,1
),
(
'Jane Doe'
,'1447 Example Str.'
,'28815'
,'Smallville'
,1
),
(
'Jim Doe'
,'1447 Example Str.'
,'28815'
,'Smallville'
,2
),
(
'Jack Domino'
,'815 Broadway Blvd.'
,'10000'
,'Capital City'
,2
),
(
'Joan Doe'
,'1447 Example Street'
,'28815'
,'Smallville'
,3
)