Open source 仪表板大数据预处理工具?

Open source 仪表板大数据预处理工具?,open-source,bigdata,Open Source,Bigdata,我有一个复杂的数据集,其中超过1600万行来自制药行业。关于数据,它保存在一个包含400多个关系表的sql server中 数据得到了省、市、邮政编码、人和度量等几个层次 我想创建许多仪表盘,以便观察正在发生的变化和趋势。为此,我可以使用Pentaho、R(闪亮)或Tableau。但问题是数据太大,用仪表板软件处理数据需要很长时间。我可以选择制作多维数据集并将其连接到仪表板 我在这里的问题是,是否有任何其他的解决方案,我可以使用,而不是制作一个立方体?我不想经历制作和维护立方体的麻烦 我希望使用

我有一个复杂的数据集,其中超过1600万行来自制药行业。关于数据,它保存在一个包含400多个关系表的sql server中

数据得到了省、市、邮政编码、人和度量等几个层次

我想创建许多仪表盘,以便观察正在发生的变化和趋势。为此,我可以使用Pentaho、R(闪亮)或Tableau。但问题是数据太大,用仪表板软件处理数据需要很长时间。我可以选择制作多维数据集并将其连接到仪表板

我在这里的问题是,是否有任何其他的解决方案,我可以使用,而不是制作一个立方体?我不想经历制作和维护立方体的麻烦

我希望使用一个软件,在其中指定表之间的关系,以便聚合/合并顺利进行,并输出可以连接到仪表板的已处理表。我听说Alteryx是一款可以为您实现这一点的软件(我自己还没有尝试过,而且价格昂贵!)


我了解此任务需要两个或更多软件/工具。请分享您的意见和经验。请说明您使用的工具、数据大小、整个系统的速度/效率以及其他必要的详细信息。

这在很大程度上取决于数据集的大小(不仅仅是行数)和SQL server的速度

我已经将大于2000万行(大小大于4GB)的数据集直接加载到Tableau中(尽管这是在64位Windows机器或RAM大于8GB的Mac上)。而且它们运行良好

如果数据量很大(这意味着可能有10s GB的磁盘空间),那么最好将Tableau直接连接到SQL server,让服务器来完成繁重的工作。这也很好。我在(快速且功能强大的)SQL server上有10亿行数据集,如果SQL server针对快速分析而不是事务处理进行了优化,那么它也可以以合理的速度工作

如果您的本地服务器能力或容量有限,那么我还建议将您的数据放在Google的BigQuery(或Amazon的Redshift)上,因为这些设置成本低得离谱,并提供惊人的分析能力。Tableau有两个连接器,因此即使使用monster数据集,也可以实现交互速度。我有一个500万行的测试数据集和大约100GB的数据,在那里我可以在15-30秒内得到大多数查询的典型查询响应,即使我直接从Tableau驱动它们