Amazon s3 Tableau可视化-海量数据的性能问题_Amazon S3_Amazon Redshift_Parquet_Amazon Athena

Amazon s3 Tableau可视化-海量数据的性能问题

amazon-s3 amazon-redshift

Amazon s3 Tableau可视化-海量数据的性能问题,amazon-s3,amazon-redshift,parquet,amazon-athena,Amazon S3,Amazon Redshift,Parquet,Amazon Athena,我有来自不同数据库源（Oracle、Mongo、Cassandra）的大量数据，还有Kafka中可用的事件数据。使用Tableau进行分析，并面临巨大数据的性能问题。因此，计划以其他方式存储数据，并使用Tableau进行可视化。现在有多种选择，需要一些帮助才能最终确定方法选项1:- 读取数据库数据并将其存储在拼花文件中，然后通过Spark SQL、HiveQL或Presto SQL将其公开，并让Tableau连接到此SQL 选项2:- 读取DB数据并将其存储在S3中的拼花文件中，然后使用AWS

我有来自不同数据库源（Oracle、Mongo、Cassandra）的大量数据，还有Kafka中可用的事件数据。使用Tableau进行分析，并面临巨大数据的性能问题。因此，计划以其他方式存储数据，并使用Tableau进行可视化。现在有多种选择，需要一些帮助才能最终确定方法

选项1:-

读取数据库数据并将其存储在拼花文件中，然后通过Spark SQL、HiveQL或Presto SQL将其公开，并让Tableau连接到此SQL

选项2:-

读取DB数据并将其存储在S3中的拼花文件中，然后使用AWS Athena进行分析，并让Tableau连接到Athena

选项3:-

读取DB数据并将其存储在S3中的拼花文件中，然后移动到Redshift进行分析，并让Tableau连接到Redshift

不确定上述方法是否也是流式数据（Kafka）分析的好解决方案

注意：-我有多个大表，需要连接它们。

我知道您有来自不同来源的大量数据，并且您还可以访问AWS。然后，您计划通过Tableau将这些数据用于分析和仪表板

备选案文1和2 选项1和2基本相同，因为AWS Athena和Hive基于相同的原理，即通过存储表定义的metastore在平面文件上创建表。雅典娜的Presto引擎和Spark都是分布式的，在海量数据（TB数据）上高效运行。主要区别在于定价模型（Athena基于每个请求处理的每个数据的价格，并且是无服务器的，而Spark可能意味着基础设施成本）

然后，这两个选项可能都不能很好地执行，因为它们不是为自助式BI设计的OLAP系统（它们更好地用于对海量数据的即席查询）

然后，在使用平面文件和表格或其上的视图管理数据模型时可能会遇到问题（不会针对每个表格优化数据存储和压缩，这可能会影响Tableau性能）

选择3 选项3更好，因为它基于红移，红移是为了支持OLAP系统而设计的。您可以将Tableau直接连接到Redshift，但您会遇到延迟问题，并且根据用户数和/或请求数管理集群负载时可能会遇到问题。但它可以按照你描述的方式工作

然后，如果您有性能问题，您将能够稍后创建从Redshift到Tableau的数据源摘录。您还可以实现一个中间数据库来存储预聚合查询（=数据集市），并将Tableau直接连接到该数据库，这将避免在每次在Tableau中打开仪表板时对Redshift执行相同的查询（在这种情况下，Redshift还缓存查询）

然后，由于需要执行多个联接，您将能够通过设置正确的分区和排序键，使用红移优化此类查询的数据存储

总之，您还可以使用红移光谱（通过Athena/Glue metastore）从红移直接访问平面文件

文件：

另一种尝试方法是将文件存储为超格式，而不是拼花地板。请参见Tableau网站上的Hyper API