Cassandra 工业大数据体系结构(传感器数据)

Cassandra 工业大数据体系结构(传感器数据),cassandra,apache-spark,bigdata,apache-kafka,Cassandra,Apache Spark,Bigdata,Apache Kafka,一个新项目来到我手中,对我自己来说很有趣。 我需要存储来自工业plc(控制工厂内的机器)的所有数据,plc中的每个事件都会生成一个输出,需要保存以供数据分析后使用。 我想知道,对于这种类型的数据(时间序列)来说,什么才是最完美的匹配,以形成一个洞结构来管理数据IO,目前只查询图形(稍后将应用机器学习分析进行预测性维护) 我不知道我的工作方向是否正确,如果能从该学科的专家那里学到一些知识,那将是一件好事 IO制作人(这是一个自己制作的项目,不能更改) IO事件层-->apache kafka是一个

一个新项目来到我手中,对我自己来说很有趣。 我需要存储来自工业plc(控制工厂内的机器)的所有数据,plc中的每个事件都会生成一个输出,需要保存以供数据分析后使用。 我想知道,对于这种类型的数据(时间序列)来说,什么才是最完美的匹配,以形成一个洞结构来管理数据IO,目前只查询图形(稍后将应用机器学习分析进行预测性维护)

我不知道我的工作方向是否正确,如果能从该学科的专家那里学到一些知识,那将是一件好事

  • IO制作人(这是一个自己制作的项目,不能更改)
  • IO事件层-->apache kafka是一个选项,用于管理来自许多不同计算机(收集到PLC)的大量信号,并管理保存到nosql数据库的数据。(适用于此?有更好的选择吗)
  • nosql数据库-->这一点在选择Cassandra存储时间序列时更为明确
  • 查询nosql数据-->我们选择spark进行快速查询,然后进行一些数据分析
  • 我有更多疑问的那一层是在存储之前管理io数据的那一层,我严重怀疑卡夫卡是正确的选择


    谢谢你的阅读,对不起我的英语不好;)请随意发表您的观点。

    我们有一个基于传感器数据的类似项目。我们每天大约有30 GB的数据。我们使用kafka流化数据并将其存储在hdfs中。我们有一套python(numpy、pandas和pyspark)以及spark,用于任何数据处理,基本上用于预测部分。 就你对卡夫卡的怀疑而言。。。它能够处理大型数据集。另一个好处是卡夫卡可以处理多个来源,并且更容易扩展。
    就数据存储而言,我建议您使用HDFS,因为它可以以多种方式使用数据。如果将来需要,您可以利用hive或hbase。

    Hi!堆栈溢出不是讨论此类设计的好地方。更集中、非主观的技术问题在这里有更好的机会得到好的答案。对于这样的设计问题,我建议用户提供上述项目的邮件列表。明确地users@kafka.apache.org.Thank对于你的回答,如果你直接向一个确定的项目论坛提问,那么问题将是“这是你必须做的最好的选择”,因为我更喜欢在一个更不可知论的论坛上提问。但是谢谢你的回复是的,我能理解。另一个想法是,如果你在这里没有得到好的回应,你可以试试。