PostgreSQL中的语句内性能(以及一般性能)

PostgreSQL中的语句内性能(以及一般性能),sql,django,postgresql,Sql,Django,Postgresql,我知道以前可能有人问过这个问题,但我无法通过SO的搜索找到它 假设我看到了表1和表2,我应该如何期望这样一个查询的性能: SELECT * FROM TABLE1 WHERE id IN SUBQUERY_ON_TABLE2; 随着表1和表2中的行数的增加而下降,id是表1上的主键 是的,我知道使用IN是一个n00b错误,但是表2有一个泛型关系django泛型关系到多个其他表,所以我想不出其他方法来过滤数据。在表1和表2中大约有多少行我应该注意到性能问题?根据行数的不同,性能是否会线性下降、指

我知道以前可能有人问过这个问题,但我无法通过SO的搜索找到它

假设我看到了表1和表2,我应该如何期望这样一个查询的性能:

SELECT * FROM TABLE1 WHERE id IN SUBQUERY_ON_TABLE2;
随着表1和表2中的行数的增加而下降,id是表1上的主键


是的,我知道使用IN是一个n00b错误,但是表2有一个泛型关系django泛型关系到多个其他表,所以我想不出其他方法来过滤数据。在表1和表2中大约有多少行我应该注意到性能问题?根据行数的不同,性能是否会线性下降、指数下降等?

当子查询返回的记录数很小,而主查询返回的结果行数也很小时,您只需快速查找每个记录的索引即可。随着返回数据百分比的增加,最终这两种方法都将切换到使用顺序扫描而不是索引扫描,从而一口吞下整个表,而不是将其拼凑在一起。它不是简单的线性或指数性能下降;随着计划类型的变化,存在重大的不连续性。发生这种情况的行数取决于表的大小,因此也没有有用的经验法则。你应该像我下面所做的那样建立一个模拟,看看在你自己的数据集上发生了什么,从而了解曲线是什么样子

下面的示例说明了如何使用加载了该数据库的PostgreSQL 9.0数据库进行此操作。子查询返回1000行后,它将对主表进行全表扫描。一旦子查询考虑10000条记录,这也会变成一个完整的表扫描。这些都运行了两次,因此您可以看到缓存的性能。基于缓存与未缓存状态的性能变化完全是另一个话题:

dellstore2=# EXPLAIN ANALYZE SELECT * FROM customers WHERE customerid IN 
  (SELECT customerid FROM orders WHERE orderid<2);
Nested Loop  (cost=8.27..16.56 rows=1 width=268) (actual time=0.051..0.060 rows=1 loops=1)
  ->  HashAggregate  (cost=8.27..8.28 rows=1 width=4) (actual time=0.028..0.030 rows=1 loops=1)
        ->  Index Scan using orders_pkey on orders  (cost=0.00..8.27 rows=1 width=4) (actual time=0.011..0.015 rows=1 loops=1)
              Index Cond: (orderid < 2)
  ->  Index Scan using customers_pkey on customers  (cost=0.00..8.27 rows=1 width=268) (actual time=0.013..0.016 rows=1 loops=1)
        Index Cond: (customers.customerid = orders.customerid)
Total runtime: 0.191 ms

dellstore2=# EXPLAIN ANALYZE SELECT * FROM customers WHERE customerid IN 
  (SELECT customerid FROM orders WHERE orderid<100);
Nested Loop  (cost=10.25..443.14 rows=100 width=268) (actual time=0.488..2.591 rows=98 loops=1)
  ->  HashAggregate  (cost=10.25..11.00 rows=75 width=4) (actual time=0.464..0.661 rows=98 loops=1)
        ->  Index Scan using orders_pkey on orders  (cost=0.00..10.00 rows=100 width=4) (actual time=0.019..0.218 rows=99 loops=1)
              Index Cond: (orderid < 100)
  ->  Index Scan using customers_pkey on customers  (cost=0.00..5.75 rows=1 width=268) (actual time=0.009..0.011 rows=1 loops=98)
        Index Cond: (customers.customerid = orders.customerid)
Total runtime: 2.868 ms

dellstore2=# EXPLAIN ANALYZE SELECT * FROM customers WHERE customerid IN 
  (SELECT customerid FROM orders WHERE orderid<1000);
Hash Semi Join  (cost=54.25..800.13 rows=1000 width=268) (actual time=4.574..80.319 rows=978 loops=1)
  Hash Cond: (customers.customerid = orders.customerid)
  ->  Seq Scan on customers  (cost=0.00..676.00 rows=20000 width=268) (actual time=0.007..33.665 rows=20000 loops=1)
  ->  Hash  (cost=41.75..41.75 rows=1000 width=4) (actual time=4.502..4.502 rows=999 loops=1)
        Buckets: 1024  Batches: 1  Memory Usage: 24kB
        ->  Index Scan using orders_pkey on orders  (cost=0.00..41.75 rows=1000 width=4) (actual time=0.056..2.487 rows=999 loops=1)
              Index Cond: (orderid < 1000)
Total runtime: 82.024 ms

dellstore2=# EXPLAIN ANALYZE SELECT * FROM customers WHERE customerid IN 
  (SELECT customerid FROM orders WHERE orderid<10000);
Hash Join  (cost=443.68..1444.68 rows=8996 width=268) (actual time=79.576..157.159 rows=7895 loops=1)
  Hash Cond: (customers.customerid = orders.customerid)
  ->  Seq Scan on customers  (cost=0.00..676.00 rows=20000 width=268) (actual time=0.007..27.085 rows=20000 loops=1)
  ->  Hash  (cost=349.97..349.97 rows=7497 width=4) (actual time=79.532..79.532 rows=7895 loops=1)
        Buckets: 1024  Batches: 1  Memory Usage: 186kB
        ->  HashAggregate  (cost=275.00..349.97 rows=7497 width=4) (actual time=45.130..62.227 rows=7895 loops=1)
              ->  Seq Scan on orders  (cost=0.00..250.00 rows=10000 width=4) (actual time=0.008..20.979 rows=9999 loops=1)
                    Filter: (orderid < 10000)
Total runtime: 167.882 ms