Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/309.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用ETL进行聚合_Python_Amazon Web Services_Etl_Aws Glue - Fatal编程技术网

Python 使用ETL进行聚合

Python 使用ETL进行聚合,python,amazon-web-services,etl,aws-glue,Python,Amazon Web Services,Etl,Aws Glue,我找不到任何直接的答案,所以我想在这里问一下 ETL(例如AWS Glue)是否可以用于在任意时间范围内执行聚合以将数据分辨率降低到平均、最小、最大等 e、 g.-给定过去一个月的2000多个外部温度数据点,使用ETL作业将该分辨率降低到过去一个月每日平均值的30个数据点。(撇开这些数据的实际用例不谈,仅举一个例子) 其思想是执行聚合以降低数据的分辨率,从而使图表、图形等更快地显示大数据集的长时间范围,因为我们不需要每个单独的数据点,我们必须动态聚合这些图表和图形 到目前为止,我的研究仅建议将E

我找不到任何直接的答案,所以我想在这里问一下

ETL(例如AWS Glue)是否可以用于在任意时间范围内执行聚合以将数据分辨率降低到平均、最小、最大等

e、 g.-给定过去一个月的2000多个外部温度数据点,使用ETL作业将该分辨率降低到过去一个月每日平均值的30个数据点。(撇开这些数据的实际用例不谈,仅举一个例子)

其思想是执行聚合以降低数据的分辨率,从而使图表、图形等更快地显示大数据集的长时间范围,因为我们不需要每个单独的数据点,我们必须动态聚合这些图表和图形

到目前为止,我的研究仅建议将ETL用于数据的1对1转换,而不是1000对1转换。ETL似乎更多地用于将数据转换为适当的结构以存储在数据库中,而不是在大型数据集上进行聚合


我可以使用ETL解决我的聚合需求吗?这将是一个非常大的规模,使用AWS和Python实现。

ETL中的“T”代表“转换”,聚合是最常见的执行方式之一。简单地说:是的,ETL可以为您做到这一点。其余取决于具体需要。你需要深入调查吗?提高缩放的分辨率?这将影响整个设计,但一般来说,为表示层准备数据正是ETL的用途。

我无法评论AWS对此类任务的适用性,但我想提及的是,ETL可以包括数据行的聚合,这通常是使用SQL GROUP BY来完成的。如果您没有义务使用AWS,那么有各种纯Python解决方案可以使用,这显然取决于您的具体情况。ETL是一个通用概念,而不是一个特定的解决方案。这比你的研究结果要广泛得多。在数据仓库中维护聚合表和维度表是常见的ETL场景,这两种场景的比例都很低。