Amazon redshift 带有Tableau桌面的大型CSV文件_Amazon Redshift_Tableau Api

Amazon redshift 带有Tableau桌面的大型CSV文件

amazon-redshift tableau-api

Amazon redshift 带有Tableau桌面的大型CSV文件,amazon-redshift,tableau-api,Amazon Redshift,Tableau Api,我有一个100GB的CSV文件（2亿行X 60列），我正在使用它通过extract在Tableau Desktop中创建仪表盘。我一直面临性能问题，当我选择/取消选择任何维度过滤器时，刷新仪表板大约需要2分钟。使用Tableau服务器可以解决这个问题吗？如果是，我应该配置多少个节点，以及每个节点的配置是什么缓存设置也会有问题吗我还考虑将这些数据放入一个列式数据库，比如Redshift，然后使用实时连接，这样就可以使用Redshift查询引擎而不是Tableau。对于这种小数据集来说，这是一种

我有一个100GB的CSV文件（2亿行X 60列），我正在使用它通过extract在Tableau Desktop中创建仪表盘。我一直面临性能问题，当我选择/取消选择任何维度过滤器时，刷新仪表板大约需要2分钟。使用Tableau服务器可以解决这个问题吗？如果是，我应该配置多少个节点，以及每个节点的配置是什么

缓存设置也会有问题吗

我还考虑将这些数据放入一个列式数据库，比如Redshift，然后使用实时连接，这样就可以使用Redshift查询引擎而不是Tableau。对于这种小数据集来说，这是一种过度杀伤力吗？

红移或雅典娜可以很好地解决这个问题

Redshift将易于设置，单个节点每月的成本约为250美元。您需要调整红移表以获得合理的性能

AWS雅典娜可能是以合理价格获得良好性能的好方法

简单雅典娜解决方案：

gzip您的CSV文件，将其拆分为大约10MB的块

将其上传到s3存储桶

对那个桶运行aws胶水爬行器

将桌面指向雅典娜桌面

假设您的gzip文件是25GB，每个查询将花费您$0.13，而其他成本非常低

如果这太多（因为您想要运行大量查询），那么您可以通过

将数据划分到s3文件夹中
将数据转换为拼花地板格式

红移或雅典娜会很好地解决这个问题

Redshift将易于设置，单个节点每月的成本约为250美元。您需要调整红移表以获得合理的性能

AWS雅典娜可能是以合理价格获得良好性能的好方法

简单雅典娜解决方案：

gzip您的CSV文件，将其拆分为大约10MB的块

将其上传到s3存储桶

对那个桶运行aws胶水爬行器

将桌面指向雅典娜桌面

假设您的gzip文件是25GB，每个查询将花费您$0.13，而其他成本非常低

如果这太多（因为您想要运行大量查询），那么您可以通过

将数据划分到s3文件夹中
将数据转换为拼花地板格式

谢谢@Jon Scott。对于这个非大数据问题，红移/雅典娜会不会是一个杀伤力过大的问题？你说的杀伤力过大是什么意思？太贵了？在一个表中分析100GB的数据并不小。尽量不要使用“大数据”这个词，因为它在这个上下文中并没有多大意义！如果我选择红移，我应该使用实时连接还是提取？一个实时连接，否则它不会改善任何东西，对吗？您需要确保您正确地考虑您的红移DIST密钥和排序密钥。还有一种方法可以将整个tableau摘录存储在内存中，在我的例子中，它只有4GB。如果有的话，如果我只走捷径，会不会让事情变得更好？谢谢@Jon Scott。对于这个非大数据问题，红移/雅典娜会不会是一个杀伤力过大的问题？你说的杀伤力过大是什么意思？太贵了？在一个表中分析100GB的数据并不小。尽量不要使用“大数据”这个词，因为它在这个上下文中并没有多大意义！如果我选择红移，我应该使用实时连接还是提取？一个实时连接，否则它不会改善任何东西，对吗？您需要确保您正确地考虑您的红移DIST密钥和排序密钥。还有一种方法可以将整个tableau摘录存储在内存中，在我的例子中，它只有4GB。如果有的话，如果我只使用提取方式，会不会让事情变得更好？这不是一个小数据集，尤其是如果您使用的是本地存储。你试过谷歌的BigQuery吗？这具有非常低的启动成本，并且对此类数据集具有非常高的响应能力。这不是一个小数据集，尤其是当您使用本地存储时。你试过谷歌的BigQuery吗？这具有非常低的启动成本，并且对此类数据集的响应速度非常快。