Solr模式设计:拟合时间序列数据
我正在尝试在Solr中拟合以下数据,以支持灵活的查询,并希望在相同的基础上获得您的输入。我有关于用户的数据,比如:Solr模式设计:拟合时间序列数据,solr,Solr,我正在尝试在Solr中拟合以下数据,以支持灵活的查询,并希望在相同的基础上获得您的输入。我有关于用户的数据,比如: contentID (assume uuid), platform (eg. website, mobile etc), softwareVersion (eg. sw1.1, sw2.5, ..etc), regionId (eg. us144, uk123, etc..) .... 几乎没有其他类似的领域。这些数据是部分预聚合的(读取Hadoop作业):因此,让我们假设“
contentID (assume uuid),
platform (eg. website, mobile etc),
softwareVersion (eg. sw1.1, sw2.5, ..etc),
regionId (eg. us144, uk123, etc..)
....
几乎没有其他类似的领域。这些数据是部分预聚合的(读取Hadoop作业):因此,让我们假设“contentID=uuid123和platform=mobile和softwareVersion=sw1.2和regionId=ANY”的数据格式为:
timestamp pre-aggregated data [ uniques, total]
Jan 15 [ 12, 4]
Jan 14 [ 4, 3]
Jan 13 [ 8, 7]
... ...
此外,我还有一些粒度较小的数据,比如“contentID=uuid123,platform=mobile,softwareVersion=ANY,regionId=ANY”(由于粒度减小,这些值将大于上表)
我将得到类似“contentID=uuid123和platform=mobile”的查询,给出Jan15-Jan13的“uniques”之和,或者“contentID=uuid123和platform=mobile,softwareVersion=sw1.2”的查询,给出Jan15-Jan01的“total”之和
我想到了一个简单的模式,其中的文档如下(上面的第一个示例):
上面的第二个例子:
{
"contentID": "uuid12349789",
"platform" : "mobile",
"softwareVersion": "ANY",
"regionId": "ANY",
"ts" : "2017-01-15T01:01:21Z",
"unique": 100,
"total": 40
}
可能的优化:
{
"contentID": "uuid12349789",
"platform.mobile.softwareVersion.sw1.2.region.us12" : {
"unique": 12,
"total": 4
},
"platform.mobile.softwareVersion.sw1.2.region.ANY" : {
"unique": 100,
"total": 40
},
"ts" : "2017-01-15T01:01:21Z"
}
挑战:这类行的数量非常大,并且会随着每个新字段呈指数增长——例如,如果我使用上面建议的模式,我将为contentID、platform、softwareVersion、regionId的每个组合存储一个新文档。现在,如果我们在该文档中加入另一个字段,则组合的数量将呈指数增长我已经有超过十亿行这样的组合了
如果你愿意,我希望能找到专家的建议
仅供参考:所有查询将与字段完全匹配(无部分或标记化),因此不需要对字段进行分析。而且几乎所有查询都是范围查询。您试图存储所有可能的属性值组合的查询时间结果。这只是太多重复数据。相反,您只需将每个观察值和属性存储为单个数据点一次。因此,如果您有“n”个观察值,并且如果你添加一个额外的属性,它将以相加的方式增长,而不是以指数的方式增长。如果你需要某个属性组合的数据,你可以在查询时过滤/聚合它们
{
"contentID": "uuid12349789",
"ts" : "2017-01-15T01:01:21Z",
"observation": 10001,
"attr-platform" : "mobile",
"attr-softwareVersion": "sw1.2",
"attr-regionId": "US",
}
您正在尝试存储所有可能的属性值组合的查询时结果。这只是太多重复数据。相反,您只需将每个观察值和属性作为单个数据点存储一次。因此,如果您有“n”个观察值,并且添加了一个额外的属性,它将以相加方式增长,而不是以指数方式增长。如果您对于某些属性组合所需的数据,您可以在查询时对其进行过滤/聚合
{
"contentID": "uuid12349789",
"ts" : "2017-01-15T01:01:21Z",
"observation": 10001,
"attr-platform" : "mobile",
"attr-softwareVersion": "sw1.2",
"attr-regionId": "US",
}
{
"contentID": "uuid12349789",
"ts" : "2017-01-15T01:01:21Z",
"observation": 10001,
"attr-platform" : "mobile",
"attr-softwareVersion": "sw1.2",
"attr-regionId": "US",
}