Azure cosmosdb 在Cosmos DB中检查数百万个ID_Azure Cosmosdb_Azure Cosmosdb Sqlapi

Azure cosmosdb 在Cosmos DB中检查数百万个ID

azure-cosmosdb

Azure cosmosdb 在Cosmos DB中检查数百万个ID,azure-cosmosdb,azure-cosmosdb-sqlapi,Azure Cosmosdb,Azure Cosmosdb Sqlapi,给定一组可能很大（最多10^7）的ID（以及相关的分区键），我需要验证Cosmos DB集合中是否存在ID在给定集合中的文档有两种明显的方法可以实现这一点：使用并行点读取，使用AllowBulkExecution=true，分别检查每个ID/分区密钥对是否存在，并在读取成功返回后立即中止按分区键将ID分组，对于每个组，发出以下形式的并行查询（使每个查询小于最大查询大小256 kB），并在任何查询返回非空结果时立即中止：有没有可能在不尝试的情况下说哪一个更快这里有更多的上下文：客

给定一组可能很大（最多10^7）的ID（以及相关的分区键），我需要验证Cosmos DB集合中是否存在ID在给定集合中的文档

有两种明显的方法可以实现这一点：

使用并行点读取，使用

AllowBulkExecution=true

，分别检查每个ID/分区密钥对是否存在，并在读取成功返回后立即中止

按分区键将ID分组，对于每个组，发出以下形式的并行查询（使每个查询小于最大查询大小256 kB），并在任何查询返回非空结果时立即中止：

有没有可能在不尝试的情况下说哪一个更快

这里有更多的上下文：

客户端是一个Azure应用程序服务，与Cosmos DB实例位于同一区域
Cosmos DB集合包含约10^7个文档，吞吐量为4000 RU/s
ID实际上是长度为36的GUID字符串，因此解决方案2中每个查询的ID数将限制在6500左右，以不超过最大查询大小。换句话说，解决方案2中所需的查询数约为
```
n/6500
```
，其中
```
n
```
是集合中的ID数
不同分区键的数量很小（<10）
文档的平均大小约为500B
默认索引策略
更详细的背景：检查是导入/初始加载操作的一部分。更准确地说，它是导入集验证的一部分，因此可以在写入操作开始之前返回错误。因此，预期的（非错误）情况是集合中没有一个ID已经存在。导入操作预计不会频繁执行（尽管肯定不止一次），因此仅为优化此检查而管理辅助流程/数据不是一个好的折衷方案

从c

    SELECT c.id FROM c 
        WHERE c.partitionkey = 'partition123' AND ARRAY_CONTAINS(['id1', 'id2', ...], c.id) 
        LIMIT 1