Tableau api 查询4b+;画面记录

Tableau api 查询4b+;画面记录,tableau-api,vertica,Tableau Api,Vertica,我正在寻找使用Tableau分析Vertica中存储的4B记录(1TB数据)的最佳方法。我试着使用100万条记录的摘录,效果非常好。但我不知道如何管理4B记录,因为查询4B记录要花很长时间 我有以下数据集: timestamp id url domain keyword nor_word cat_1 cat_2 cat_3 所以在这里,我需要创建前10个ID、前10个url、前10个域、前10个关键字、前10个nor_词、前10个cat_1、前10个cat_2、前10个cat_3的降序列表,这

我正在寻找使用Tableau分析Vertica中存储的4B记录(1TB数据)的最佳方法。我试着使用100万条记录的摘录,效果非常好。但我不知道如何管理4B记录,因为查询4B记录要花很长时间

我有以下数据集:

timestamp id url domain keyword nor_word cat_1 cat_2 cat_3
所以在这里,我需要创建前10个ID、前10个url、前10个域、前10个关键字、前10个nor_词、前10个cat_1、前10个cat_2、前10个cat_3的降序列表,这取决于单独工作表中每个字段值的计数,并将所有工作表合并到一个仪表板中


没有主键。这是一个月的数据集,因此我希望使用全局筛选器开始日期和结束日期来减少查询大小。但不知道如何创建全局日期过滤器并显示在仪表板上

你有两个问题,一个关于Vertica,一个关于Tableau。你应该把这些分开

关于Vertica,您需要知道Vertica在物理存储中按升序存储数据。这意味着,无论何时您想要获得降序排序顺序,都需要额外的步骤

我建议在日期上,然后以增量模式运行数据库设计器(DBD),并使用查询作为示例。通过对数据进行分区,Vertica可以在优化过程中消除分区


运行DBD将生成一些更好的优化投影。你应该考虑你需要多长时间的数据之间的权衡,以及是否值得创建这些额外的投影,因为它会影响你的负载性能。

好的一点,让我整理记录并在每一天创建分区。@您希望将分区数保持在10到20之间,以实现优异的性能。例如,这意味着按月+年进行分区。如何验证表是否已分区?我尝试\d表\u名称;但是它没有显示任何有用的内容。@user3579198您可以使用
EXPORT\u TABLE()
获取表定义,或者只查看
v\u monitor.partitions