Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/performance/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
SQL:重复项计数和编号-优化相关子查询_Sql_Performance_Sqlite_Duplicates_Correlated Subquery - Fatal编程技术网

SQL:重复项计数和编号-优化相关子查询

SQL:重复项计数和编号-优化相关子查询,sql,performance,sqlite,duplicates,correlated-subquery,Sql,Performance,Sqlite,Duplicates,Correlated Subquery,在SQLite数据库中,我有一个表,其中我需要计算某些列中的重复项,即3个特定列相同的行,然后对这些情况中的每一个进行编号,即如果有2个特定重复项出现,则需要将它们编号为1和2。我发现用文字解释有点困难,所以我将在下面使用一个简化的示例 我拥有的数据类似于下面的第一行是标题行,表在下面作为idcountdata引用: id match1 match2 match3 data 1 AbCde BC 0 data01 2 AbCde BC 0

在SQLite数据库中,我有一个表,其中我需要计算某些列中的重复项,即3个特定列相同的行,然后对这些情况中的每一个进行编号,即如果有2个特定重复项出现,则需要将它们编号为1和2。我发现用文字解释有点困难,所以我将在下面使用一个简化的示例

我拥有的数据类似于下面的第一行是标题行,表在下面作为idcountdata引用:

id  match1  match2  match3  data
1   AbCde   BC      0       data01
2   AbCde   BC      0       data02
3   AbCde   BC      1       data03
4   AbCde   AB      0       data04
5   FGhiJ   BC      0       data05
6   FGhiJ   AB      0       data06
7   FGhiJ   BC      1       data07
8   FGhiJ   BC      1       data08
9   FGhiJ   BC      2       data09
10  HkLMop  BC      1       data10
11  HkLMop  BC      1       data11
12  HkLMop  BC      1       data12
13  HkLMop  DE      1       data13
14  HkLMop  DE      2       data14
15  HkLMop  DE      2       data15
16  HkLMop  DE      2       data16
17  HkLMop  DE      2       data17
我需要为上述内容生成的输出是:

id  match1  match2  match3  data    matchid  matchcount
1   AbCde   BC      0       data01  1        2
2   AbCde   BC      0       data02  2        2
3   AbCde   BC      1       data03  1        1
4   AbCde   AB      0       data04  1        1
5   FGhiJ   BC      0       data05  1        1
6   FGhiJ   AB      0       data06  1        1
7   FGhiJ   BC      1       data07  1        2
8   FGhiJ   BC      1       data08  2        2
9   FGhiJ   BC      2       data09  1        1
10  HkLMop  BC      1       data10  1        3
11  HkLMop  BC      1       data11  2        3
12  HkLMop  BC      1       data12  3        3
13  HkLMop  DE      1       data13  1        1
14  HkLMop  DE      2       data14  1        4
15  HkLMop  DE      2       data15  2        4
16  HkLMop  DE      2       data16  3        4
17  HkLMop  DE      2       data17  4        4
之前,我使用了几个相关的子查询来实现这一点,如下所示:

SELECT id, match1, match2, match3, data,
  (SELECT count(*) FROM idcountdata d2 
    WHERE d1.match1=d2.match1 AND d1.match2=d2.match2 AND d1.match3=d2.match3
      AND d2.id<=d1.id)
  AS matchid,
  (SELECT count(*) FROM idcountdata d2 
    WHERE d1.match1=d2.match1 AND d1.match2=d2.match2 AND d1.match3=d2.match3)
  AS matchcount
FROM idcountdata d1;
SELECT d1.id, d1.match1, d1.match2, d1.match3, d1.data,
  matchcount
FROM idcountdata d1
JOIN
  (SELECT id,match1,match2,match3,count(*) matchcount 
    FROM idcountdata
    GROUP BY match1,match2,match3) d2
  ON (d1.match1=d2.match1 and d1.match2=d2.match2 and d1.match3=d2.match3);
所以这只是matchid的子查询,我希望得到一些帮助来优化它。 简而言之,对于较大的数据集,以下查询运行得太慢:

SELECT id, match1, match2, match3, data,
  (SELECT count(*) FROM idcountdata d2 
    WHERE d1.match1=d2.match1 AND d1.match2=d2.match2 AND d1.match3=d2.match3
      AND d2.id<=d1.id)
  matchid
FROM idcountdata d1;
如何提高上述查询的性能?
它不必在几秒钟内运行,但对于大约200000行,它需要几分钟而不是几小时。

自连接可能比相关子查询更快

SELECT d1.id, d1.match1, d1.match2, d1.match3, d1.data, count(*) matchid
FROM idcountdata d1
JOIN idcountdata d2 on d1.match1 = d2.match1 
  and d1.match2 = d2.match2 
  and d1.match3 = d2.match3
  and d1.id >= d2.id
GROUP BY d1.id, d1.match1, d1.match2, d1.match3, d1.data

这个查询可以利用match1、match2、match3、id上的复合索引,这听起来像是超过了sqlite。如果切换DB是一种选择,请考虑一个支持RoWyNoMurnRoWixNo.1的分区似乎正是我正在寻找的-谢谢。这对我的数据集来说是几秒钟的工作-谢谢!我曾考虑过自联接,但没想到会快得多——看起来我需要阅读综合指数。