Sql 将潜在的重复项分离到不同的行中_Sql_Sql Server_Tsql_Sql Server 2014_Unpivot

Sql 将潜在的重复项分离到不同的行中

sql sql-server tsql

Sql 将潜在的重复项分离到不同的行中,sql,sql-server,tsql,sql-server-2014,unpivot,Sql,Sql Server,Tsql,Sql Server 2014,Unpivot,我试图根据SSN、姓氏和DOB中的最后4个，在我的数据库中识别潜在的重复客户。我编写的存储过程确实识别了潜在的重复项，但它将它们列在一行中——出于报告的原因，我尝试将它们拆分为单独的行我的T-SQL看起来像： DECLARE @StartDate DATE = '1/1/2017', @EndDate DATE = '3/1/2017'; SELECT DENSE_RANK() OVER (ORDER BY c.socialSecurityNumber) AS [SSNRanking] ,

我试图根据SSN、姓氏和DOB中的最后4个，在我的数据库中识别潜在的重复客户。我编写的存储过程确实识别了潜在的重复项，但它将它们列在一行中——出于报告的原因，我尝试将它们拆分为单独的行

我的T-SQL看起来像：

DECLARE
@StartDate DATE = '1/1/2017',
@EndDate DATE = '3/1/2017';

SELECT  DENSE_RANK() OVER (ORDER BY c.socialSecurityNumber) AS [SSNRanking] ,
    ROW_NUMBER() OVER (PARTITION BY c.socialSecurityNumber ORDER BY c.socialSecurityNumber) AS [RowNumb] ,
    c.socialSecurityNumber AS [SSN], 
    c.id AS [CustomerID]  , 
    c.firstName AS [FirstName] ,    
    c.lastName AS [lastName] ,
    c.birthDate [birthdate] ,
    c.createDate AS [CreateDate] ,
    c2.socialSecurityNumber AS [DupSSN] ,
    c2.id AS [DupCustomerID] ,
    c2.firstName AS [DupFirstName] ,
    c2.lastName AS [DupLastName] ,
    c2.birthDate AS [DupBirthDate] ,
    c2.createDate AS [DupCreateDate]
FROM    dbo.Customers AS [c]
    INNER JOIN dbo.Customers AS [c2] ON ( SUBSTRING(c.socialSecurityNumber,6,4) = SUBSTRING(c2.socialSecurityNumber,6,4) AND c.birthDate = c2.birthDate AND c.lastName = c2.lastName AND c.id <> c2.id )
    LEFT JOIN dbo.CustomerAddresses AS [CA] ON c.id = CA.customerID             
    LEFT OUTER JOIN dbo.Common_Orders AS [co] ON co.customerID = c.id
WHERE
    c.customerStatusTypeID <> 'M'
    AND C2.customerStatusTypeID <> 'M'
    AND c.mergedTo IS NULL
    AND c2.mergedTo IS NULL
    AND CAST(co.orderDate AS DATE) >= @StartDate
    AND CAST(co.orderDate AS DATE) <= @EndDate
    AND c.id = 1234439
GROUP BY c.socialSecurityNumber ,
    c.id ,
    c.firstName ,
    c.lastName ,
    c.birthDate ,       
    c.createDate ,
    c2.socialSecurityNumber ,
    c2.id ,
    c2.firstName ,        
    c2.lastName ,
    c2.birthDate ,
    c2.createDate
ORDER BY CAST(c.socialSecurityNumber AS INT) ASC;

SSNRanking  RowNumb  SSN        CustomerID  FirstName  lastName  birthdate  CreateDate  DupSSN     DupCustomerID  DupFirstName  DupLastName  DupBirthDate  DupCreateDate
1           1        000009915  1234439     GREG       GARRETT  1900-01-01  2014-02-25  000009915  1166084        ADAM          GARRETT      1900-01-01    2013-08-29

在这个特定的实例中，我有两个用户，他们的SSN的最后4个相同，姓氏相同，DOB相同，但名字不同

如何使这两条记录分别显示在不同的行上？理想情况下，我希望看到：

SSNRanking  RowNumb  SSN        CustomerID  FirstName  lastName  birthdate   CreateDate
1           1        000009915  1234439     GREG       GARRETT   1900-01-01  2014-02-25
1           2        000009915  1166084     ADAM       GARRETT   1900-01-01  2013-08-29

但我不确定在加入同一个表时如何才能做到这一点。建议

我正在链接到一个脚本，该脚本创建两个有问题的表并插入示例数据。希望这是可以接受的：

这被称为“unpivot”。您可以使用

UNPIVOT

运算符，但我更喜欢使用

交叉应用。。。值

我将把您的查询包装到CTE中，而不详细查看它，并使用

交叉应用

将每一行拆分为两行

DECLARE
@StartDate DATE = '1/1/2017',
@EndDate DATE = '3/1/2017';

WITH
CTE
AS
(
    SELECT  
        DENSE_RANK() OVER (ORDER BY c.socialSecurityNumber) AS [SSNRanking] ,
        ROW_NUMBER() OVER (PARTITION BY c.socialSecurityNumber ORDER BY c.socialSecurityNumber) AS [RowNumb] ,
        c.socialSecurityNumber AS [SSN], 
        c.id AS [CustomerID]  , 
        c.firstName AS [FirstName] ,    
        c.lastName AS [lastName] ,
        c.birthDate [birthdate] ,
        c.createDate AS [CreateDate] ,
        c2.socialSecurityNumber AS [DupSSN] ,
        c2.id AS [DupCustomerID] ,
        c2.firstName AS [DupFirstName] ,
        c2.lastName AS [DupLastName] ,
        c2.birthDate AS [DupBirthDate] ,
        c2.createDate AS [DupCreateDate]
    FROM    
        dbo.Customers AS [c]
        INNER JOIN dbo.Customers AS [c2] ON ( SUBSTRING(c.socialSecurityNumber,6,4) = SUBSTRING(c2.socialSecurityNumber,6,4) AND c.birthDate = c2.birthDate AND c.lastName = c2.lastName AND c.id <> c2.id )
        LEFT JOIN dbo.CustomerAddresses AS [CA] ON c.id = CA.customerID             
        LEFT JOIN dbo.Common_Orders AS [co] ON co.customerID = c.id
    WHERE
        c.customerStatusTypeID <> 'M'
        AND C2.customerStatusTypeID <> 'M'
        AND c.mergedTo IS NULL
        AND c2.mergedTo IS NULL
        AND CAST(co.orderDate AS DATE) >= @StartDate
        AND CAST(co.orderDate AS DATE) <= @EndDate
        AND c.id = 1234439
    GROUP BY
        c.socialSecurityNumber ,
        c.id ,
        c.firstName ,
        c.lastName ,
        c.birthDate ,       
        c.createDate ,
        c2.socialSecurityNumber ,
        c2.id ,
        c2.firstName ,        
        c2.lastName ,
        c2.birthDate ,
        c2.createDate
)
SELECT
    CA.SSNRanking
    ,CA.RowNumb
    ,CA.SSN
    ,CA.CustomerID
    ,CA.FirstName
    ,CA.lastName
    ,CA.birthdate
    ,CA.CreateDate
FROM
    CTE
    CROSS APPLY
    (
        VALUES
        (CTE.SSNRanking, CTE.RowNumb, CTE.SSN, CTE.CustomerID, CTE.FirstName, CTE.lastName, CTE.birthdate, CTE.CreateDate),
        (CTE.SSNRanking, CTE.RowNumb, CTE.DupSSN, CTE.DupCustomerID, CTE.DupFirstName, CTE.DuplastName, CTE.Dupbirthdate, CTE.DupCreateDate)
    ) AS CA(SSNRanking, RowNumb, SSN, CustomerID, FirstName, lastName, birthdate, CreateDate)
ORDER BY CAST(CA.SSN AS INT) ASC;

如果按同一列进行分区和排序，则没有意义。我不确定你想在那里实现什么

您可以提供表定义和示例数据集吗？您需要基础表的表定义或结果集表定义工作吗？基础表但不需要所有列，只需要足够复制您的问题并提出解决方案。我添加了一个链接，指向创建两个表并插入示例的脚本数据。很好-我喜欢这个解决方案。交叉应用是我从未使用过或真正知道如何使用的东西之一。但这运行得很快，数据看起来像我希望的那样好。至于行号，我相信我只是让我更容易看到SSN重置的时间。谢谢我很感谢Vlad的回答-我相信这几乎就是我需要查询的地方，如果你想赢得更多的声誉，请发布另一个问题：@MISNole，对不起，清理数据/查找重复项通常是混乱和困难的。我不认为有一个查询可以涵盖所有情况。

ROW_NUMBER() OVER (PARTITION BY ColumnA ORDER BY ColumnA)