Amazon redshift 带有Tableau桌面的大型CSV文件

Amazon redshift 带有Tableau桌面的大型CSV文件,amazon-redshift,tableau-api,Amazon Redshift,Tableau Api,我有一个100GB的CSV文件(2亿行X 60列),我正在使用它通过extract在Tableau Desktop中创建仪表盘。我一直面临性能问题,当我选择/取消选择任何维度过滤器时,刷新仪表板大约需要2分钟。使用Tableau服务器可以解决这个问题吗?如果是,我应该配置多少个节点,以及每个节点的配置是什么 缓存设置也会有问题吗 我还考虑将这些数据放入一个列式数据库,比如Redshift,然后使用实时连接,这样就可以使用Redshift查询引擎而不是Tableau。对于这种小数据集来说,这是一种

我有一个100GB的CSV文件(2亿行X 60列),我正在使用它通过extract在Tableau Desktop中创建仪表盘。我一直面临性能问题,当我选择/取消选择任何维度过滤器时,刷新仪表板大约需要2分钟。使用Tableau服务器可以解决这个问题吗?如果是,我应该配置多少个节点,以及每个节点的配置是什么

缓存设置也会有问题吗


我还考虑将这些数据放入一个列式数据库,比如Redshift,然后使用实时连接,这样就可以使用Redshift查询引擎而不是Tableau。对于这种小数据集来说,这是一种过度杀伤力吗?

红移或雅典娜可以很好地解决这个问题

Redshift将易于设置,单个节点每月的成本约为250美元。您需要调整红移表以获得合理的性能

AWS雅典娜可能是以合理价格获得良好性能的好方法

简单雅典娜解决方案:

  • gzip您的CSV文件,将其拆分为大约10MB的块
  • 将其上传到s3存储桶
  • 对那个桶运行aws胶水爬行器
  • 将桌面指向雅典娜桌面
  • 假设您的gzip文件是25GB,每个查询将花费您$0.13,而其他成本非常低

    如果这太多(因为您想要运行大量查询),那么您可以通过

    • 将数据划分到s3文件夹中
    • 将数据转换为拼花地板格式

    红移或雅典娜会很好地解决这个问题

    Redshift将易于设置,单个节点每月的成本约为250美元。您需要调整红移表以获得合理的性能

    AWS雅典娜可能是以合理价格获得良好性能的好方法

    简单雅典娜解决方案:

  • gzip您的CSV文件,将其拆分为大约10MB的块
  • 将其上传到s3存储桶
  • 对那个桶运行aws胶水爬行器
  • 将桌面指向雅典娜桌面
  • 假设您的gzip文件是25GB,每个查询将花费您$0.13,而其他成本非常低

    如果这太多(因为您想要运行大量查询),那么您可以通过

    • 将数据划分到s3文件夹中
    • 将数据转换为拼花地板格式

    谢谢@Jon Scott。对于这个非大数据问题,红移/雅典娜会不会是一个杀伤力过大的问题?你说的杀伤力过大是什么意思?太贵了?在一个表中分析100GB的数据并不小。尽量不要使用“大数据”这个词,因为它在这个上下文中并没有多大意义!如果我选择红移,我应该使用实时连接还是提取?一个实时连接,否则它不会改善任何东西,对吗?您需要确保您正确地考虑您的红移DIST密钥和排序密钥。还有一种方法可以将整个tableau摘录存储在内存中,在我的例子中,它只有4GB。如果有的话,如果我只走捷径,会不会让事情变得更好?谢谢@Jon Scott。对于这个非大数据问题,红移/雅典娜会不会是一个杀伤力过大的问题?你说的杀伤力过大是什么意思?太贵了?在一个表中分析100GB的数据并不小。尽量不要使用“大数据”这个词,因为它在这个上下文中并没有多大意义!如果我选择红移,我应该使用实时连接还是提取?一个实时连接,否则它不会改善任何东西,对吗?您需要确保您正确地考虑您的红移DIST密钥和排序密钥。还有一种方法可以将整个tableau摘录存储在内存中,在我的例子中,它只有4GB。如果有的话,如果我只使用提取方式,会不会让事情变得更好?这不是一个小数据集,尤其是如果您使用的是本地存储。你试过谷歌的BigQuery吗?这具有非常低的启动成本,并且对此类数据集具有非常高的响应能力。这不是一个小数据集,尤其是当您使用本地存储时。你试过谷歌的BigQuery吗?这具有非常低的启动成本,并且对此类数据集的响应速度非常快。