Nlp 具有多属性的大量时间序列数据的解决方案

Nlp 具有多属性的大量时间序列数据的解决方案,nlp,time-series,bigdata,Nlp,Time Series,Bigdata,我正在从事一个新闻分析项目,我们从实时新闻流中检索事件,并对某些金融工具进行情绪分析。目前,我们仅为每个工具生成一个时间序列情绪流,该情绪流由100多种事件和多个新闻网站聚合而成。我们使用Postgres存储结构化数据,预计算/聚合情绪,并在流入时存储,以支持前端的实时流 我们正在考虑扩展功能,让用户能够选择范围内的事件类型和新闻来源,这样每个用户都可以有不同的情绪流。用户应该能够进一步分解情绪,仅使用特定的事件类型或来源。理想的解决方案应该能够让用户定义范围,并实时接收聚合的情感 我很难想象在

我正在从事一个新闻分析项目,我们从实时新闻流中检索事件,并对某些金融工具进行情绪分析。目前,我们仅为每个工具生成一个时间序列情绪流,该情绪流由100多种事件和多个新闻网站聚合而成。我们使用Postgres存储结构化数据,预计算/聚合情绪,并在流入时存储,以支持前端的实时流

我们正在考虑扩展功能,让用户能够选择范围内的事件类型和新闻来源,这样每个用户都可以有不同的情绪流。用户应该能够进一步分解情绪,仅使用特定的事件类型或来源。理想的解决方案应该能够让用户定义范围,并实时接收聚合的情感

我很难想象在没有任何预先计算的情况下,可以完全动态地进行聚合。另一方面,最具原子性的时间序列是每个新闻源的每个事件类型。但这样我们需要维护100个事件类型*100个新闻源*1000个仪器1000万个系列?进一步增加新闻来源将使系统无法维持


有人能分享一下什么架构或技术解决方案可以支持我们的需求吗?

如果所有事件类型和源共享相同的工具,那么您可以创建一个流,并将事件类型和源作为流系列中的一个属性。然后,您可以根据需要按属性过滤流

但是,如果不同的源具有不同的工具和事件类型,则可以为工具创建一个流时间序列,并将源和事件类型作为属性添加到每个流中,以便按属性进行过滤


通常,尝试减少流的数量,并将该信息编码为属性

什么是情感,用CS的话来说?谢谢!您可能知道什么样的数据库可以支持如此大量的数据并动态地按许多属性进行过滤?我们使用XDB存储时间序列数据,但它只能根据时间戳进行过滤。我不认为博士后能做得更好。