SQL:查找表中缺少的层次结构文件夹(路径)
我有一个包含文件夹路径的表。 我需要找到层次结构中这些文件夹之间的所有“间隙”。 我的意思是,如果表包含以下3个文件夹:SQL:查找表中缺少的层次结构文件夹(路径),sql,sql-server,sqlperformance,sql-server-performance,Sql,Sql Server,Sqlperformance,Sql Server Performance,我有一个包含文件夹路径的表。 我需要找到层次结构中这些文件夹之间的所有“间隙”。 我的意思是,如果表包含以下3个文件夹: 'A' 'A\B\C' 'A\B\C\D\E\F\G' 我需要找到层次结构中缺少的以下文件夹: 'A\B' 'A\B\C\D' 'A\B\C\D\E' 'A\B\C\D\E\F' 此表包含超过250000条文件夹记录,因此我们寻求最有效的方法,否则脚本将被卡住很长时间,我们没有时间 注释:我没有所有文件夹的列表。我拥有的是“根”文件夹和“叶”文件夹,我需要在层次结构中找到
'A'
'A\B\C'
'A\B\C\D\E\F\G'
我需要找到层次结构中缺少的以下文件夹:
'A\B'
'A\B\C\D'
'A\B\C\D\E'
'A\B\C\D\E\F'
此表包含超过250000条文件夹记录,因此我们寻求最有效的方法,否则脚本将被卡住很长时间,我们没有时间
注释:我没有所有文件夹的列表。我拥有的是“根”文件夹和“叶”文件夹,我需要在层次结构中找到它们之间的“间隙”
第二条注释:表可以包含多个层次结构,我们需要在所有层次结构中找到“差距”。
为此,还有另外两个int列:“DirID”和“BaseDirID”。“DirID”列是表中的id列。“BaseDirID”包含层次结构中第一个文件夹的id。因此,来自同一层次结构的所有文件夹(路径)在此列中共享相同的值。示例数据,例如:
因此,我们需要找到以下数据:
提前感谢。这里有一种方法使用
递归CTE
和拆分字符串函数
;WITH existing_hierachies
AS (SELECT DirID,
BaseDirID,
DisplayPath
FROM (VALUES (1,1,'A' ),
(2,1,'A\B\C' ),
(3,1,'A\B\C\D\E' ),
(4,4,'U' ),
(5,4,'U\V\W' ),
(6,4,'U\V\W\X\Y' )) tc (DirID, BaseDirID, DisplayPath) ),
folders_list
AS (SELECT ItemNumber,
item fol,
BaseDirID
FROM (SELECT row_number()over(partition by BaseDirID order by Len(DisplayPath) DESC)rn,*
FROM existing_hierachies) a
CROSS apply dbo.[Delimitedsplit8k](DisplayPath, '\')
Where Rn = 1),
rec_cte
AS (SELECT *,
Cast(fol AS VARCHAR(4000))AS hierar
FROM folders_list
WHERE ItemNumber = 1
UNION ALL
SELECT d.*,
Cast(rc.hierar + '\' + d.fol AS VARCHAR(4000))
FROM rec_cte rc
JOIN folders_list d
ON rc.BaseDirID = d.BaseDirID
AND d.ItemNumber = rc.ItemNumber + 1)
SELECT rc.BaseDirID,
rc.hierar AS Missing_Hierarchies
FROM rec_cte rc
WHERE NOT EXISTS (SELECT 1
FROM existing_hierachies eh
WHERE eh.BaseDirID = rc.BaseDirID
AND eh.DisplayPath = rc.hierar)
Order by rc.BaseDirID
结果:
+-----------+---------------------+
| BaseDirID | Missing_Hierarchies |
+-----------+---------------------+
| 1 | A\B |
| 1 | A\B\C\D |
| 4 | U\V |
| 4 | U\V\W\X |
+-----------+---------------------+
拆分字符串功能代码
CREATE FUNCTION [dbo].[DelimitedSplit8K]
(@pString VARCHAR(8000), @pDelimiter CHAR(1))
RETURNS TABLE WITH SCHEMABINDING AS
RETURN
--===== "Inline" CTE Driven "Tally Table" produces values from 0 up to 10,000...
-- enough to cover NVARCHAR(4000)
WITH E1(N) AS (
SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL
SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL
SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1
), --10E+1 or 10 rows
E2(N) AS (SELECT 1 FROM E1 a, E1 b), --10E+2 or 100 rows
E4(N) AS (SELECT 1 FROM E2 a, E2 b), --10E+4 or 10,000 rows max
cteTally(N) AS (--==== This provides the "base" CTE and limits the number of rows right up front
-- for both a performance gain and prevention of accidental "overruns"
SELECT TOP (ISNULL(DATALENGTH(@pString),0)) ROW_NUMBER() OVER (ORDER BY (SELECT NULL)) FROM E4
),
cteStart(N1) AS (--==== This returns N+1 (starting position of each "element" just once for each delimiter)
SELECT 1 UNION ALL
SELECT t.N+1 FROM cteTally t WHERE SUBSTRING(@pString,t.N,1) = @pDelimiter
),
cteLen(N1,L1) AS(--==== Return start and length (for use in substring)
SELECT s.N1,
ISNULL(NULLIF(CHARINDEX(@pDelimiter,@pString,s.N1),0)-s.N1,8000)
FROM cteStart s
)
--===== Do the actual split. The ISNULL/NULLIF combo handles the length for the final element when no delimiter is found.
SELECT ItemNumber = ROW_NUMBER() OVER(ORDER BY l.N1),
Item = SUBSTRING(@pString, l.N1, l.L1)
FROM cteLen l
;
GO
参考这是我在sql之外要做的事情。在这种情况下,任何编程语言都可能比t-sql做得更好。我没有文件夹列表。我拥有的是“根”文件夹和“叶”文件夹,我需要它们在层次结构中查找它们之间的“间隙”。感谢您的解决方案。从我看到的情况来看,它只适用于一个层次结构,但是如果我们的表包含多个层次结构,它将找不到其他层次结构的“间隙”。例如,如果该表包含以下路径:“A”“A\B\C”“X”“X\Y\Z”,则当前解决方案将仅返回第一个“间隙”:“A\B”而不是第二个间隙:“X\Y”您能为这种情况建议解决方案吗?再次感谢,Nuriel@NurielZrubavely-是否有其他列来区分层次结构。为不止一个层次添加示例数据和预期结果是的。还有另外两个int列:“DirID”和“BaseDirID”。“DirID”列是表中的id列。“BaseDirID”包含层次结构中第一个文件夹的id。因此,来自同一层次结构的所有文件夹(路径)在此列中共享相同的值。例如,如果文件夹“A”的ID为1,则其BaseDirID也将为1。因此文件夹“A\B\C”的“BaseDIrID”将为1。我想把它写得更清楚,但我正在使用我的安卓系统:)@nurielzrubaly——正如我前面所说的,用这些列和预期结果发布示例数据
+-----------+---------------------+
| BaseDirID | Missing_Hierarchies |
+-----------+---------------------+
| 1 | A\B |
| 1 | A\B\C\D |
| 4 | U\V |
| 4 | U\V\W\X |
+-----------+---------------------+
CREATE FUNCTION [dbo].[DelimitedSplit8K]
(@pString VARCHAR(8000), @pDelimiter CHAR(1))
RETURNS TABLE WITH SCHEMABINDING AS
RETURN
--===== "Inline" CTE Driven "Tally Table" produces values from 0 up to 10,000...
-- enough to cover NVARCHAR(4000)
WITH E1(N) AS (
SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL
SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL
SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1
), --10E+1 or 10 rows
E2(N) AS (SELECT 1 FROM E1 a, E1 b), --10E+2 or 100 rows
E4(N) AS (SELECT 1 FROM E2 a, E2 b), --10E+4 or 10,000 rows max
cteTally(N) AS (--==== This provides the "base" CTE and limits the number of rows right up front
-- for both a performance gain and prevention of accidental "overruns"
SELECT TOP (ISNULL(DATALENGTH(@pString),0)) ROW_NUMBER() OVER (ORDER BY (SELECT NULL)) FROM E4
),
cteStart(N1) AS (--==== This returns N+1 (starting position of each "element" just once for each delimiter)
SELECT 1 UNION ALL
SELECT t.N+1 FROM cteTally t WHERE SUBSTRING(@pString,t.N,1) = @pDelimiter
),
cteLen(N1,L1) AS(--==== Return start and length (for use in substring)
SELECT s.N1,
ISNULL(NULLIF(CHARINDEX(@pDelimiter,@pString,s.N1),0)-s.N1,8000)
FROM cteStart s
)
--===== Do the actual split. The ISNULL/NULLIF combo handles the length for the final element when no delimiter is found.
SELECT ItemNumber = ROW_NUMBER() OVER(ORDER BY l.N1),
Item = SUBSTRING(@pString, l.N1, l.L1)
FROM cteLen l
;
GO