Snowflake cloud data platform 如何获取上个月在仓库下执行的所有报表的详细信息

Snowflake cloud data platform 如何获取上个月在仓库下执行的所有报表的详细信息,snowflake-cloud-data-platform,Snowflake Cloud Data Platform,第1部分 我们的仓库很小,我怎么知道仓库能承受的最大负荷是多少,在其他方面,我如何根据仓库的最大容量检查仓库的利用率 第二部分 我们在“warehouse over load time”(仓库超负荷时间)条形图中看到几乎大多数状态为“Running”(运行)的查询没有一个处于排队状态,我觉得这是一个好迹象。但我看到3月份的某个时间,负荷图为1.9(运行状态)。我喜欢分析该工作负载。 我们在“历史记录”选项卡中有一个选项,可以根据仓库过滤查询,以了解web ui中特定仓库下执行的语句的详细信息。我

第1部分 我们的仓库很小,我怎么知道仓库能承受的最大负荷是多少,在其他方面,我如何根据仓库的最大容量检查仓库的利用率

第二部分 我们在“warehouse over load time”(仓库超负荷时间)条形图中看到几乎大多数状态为“Running”(运行)的查询没有一个处于排队状态,我觉得这是一个好迹象。但我看到3月份的某个时间,负荷图为1.9(运行状态)。我喜欢分析该工作负载。 我们在“历史记录”选项卡中有一个选项,可以根据仓库过滤查询,以了解web ui中特定仓库下执行的语句的详细信息。我正在从SQL中寻找替代方法,在SQL中,我可以过滤3月份某一特定天的详细信息。 (或) 我们在历史选项卡web ui中是否有一个选项,以便我可以跳转到特定的日期,而不是一直单击底部的“继续搜索”按钮? 我正在确定过度使用/未充分使用的仓库。请有人帮助我使用行业公认的方法来进行此练习

如何确定仓库是否得到了有效利用或使用不足?

第1部分:确定仓库是否得到了最佳利用

老实说,这有点棘手,首先从查询历史中确定问题区域,然后在where子句中使用“Warehouse”和“date”从下表中移动到该时间范围以检查利用率

select * from "SNOWFLAKE"."ACCOUNT_USAGE"."WAREHOUSE_METERING_HISTORY"
select * from "SNOWFLAKE"."ACCOUNT_USAGE"."WAREHOUSE_LOAD_HISTORY"
#第2部分:如何分析特定月份的查询

您可以根据需要更新以下查询(我只是为了验证而起草的)。 这将是对利用率分析的完整查询

SELECT
TO_CHAR(DATE_TRUNC('minute', query_history.START_TIME ), 'YYYY-MM-DD HH24:MI') AS 
"query_history.start_time",
query_history.QUERY_TEXT  AS "query_history.query_text",
query_history.QUERY_TYPE  AS "query_history.query_type",
query_history.WAREHOUSE_NAME  AS "query_history.warehouse_name",
query_history.WAREHOUSE_SIZE  AS "query_history.warehouse_size",
query_history.USER_NAME  AS "query_history.user_name",
query_history.EXECUTION_TIME  AS "query_history.execution_time"
FROM SNOWFLAKE.ACCOUNT_USAGE.QUERY_HISTORY  AS query_history
WHERE MONTH(query_history.START_TIME) ='3'
--(query_history.EXECUTION_STATUS = 'SUCCESS') 
--AND (query_history.WAREHOUSE_SIZE != '0')
GROUP BY DATE_TRUNC('minute', query_history.START_TIME ),2,3,4,5,6,7
ORDER BY 1 DESC
谢谢


Palash Chatterjee

当然会检查这一点,关于“如何确定仓库是否被有效使用或使用不足?”有一篇关于仓库利用率的非常好的雪花文章,我以前读过这篇文章,在总共3篇评测文章中,这篇文章写得非常好。就我而言,我在我的环境中没有看到太多的AVG_QUEUE_负载,这是否意味着仓库得到了最佳利用?比率avg(avg_RUNNING)/avg(credits_used)*100的值越高,说明仓库的使用效率越高?这就是理解的方法吗?在雪花文档中可以找到这一点“总查询负载在相当长的一段时间内小于1,仓库使用效率低下。您可以考虑以下任何操作:减少仓库的大小。请注意,减小仓库大小通常会增加查询执行时间。对于多群集数据仓库,请减小MIN_cluster_COUNT参数值。“如果您没有看到太多的平均队列负载,这也可能意味着您的数据仓库可能未得到充分利用,您还需要验证您的平均队列负载是否正常运行。用一种简单的方法,如果仓库运行得更多,然后它正在排队,那么您应该检查是否增加了大小,或者是否将作业分配给其他仓库,或者是否在集群上工作。在接受您提到的呼叫之前,检查比率,如果使用的信贷更多,那么运行也比仓库的有效利用率更高。如果运行次数少,信用额度多,则减少仓库自动暂停,并重新进行分析