Cassandra 工业大数据体系结构（传感器数据）_Cassandra_Apache Spark_Bigdata_Apache Kafka

Cassandra 工业大数据体系结构（传感器数据）

cassandra apache-spark apache-kafka

Cassandra 工业大数据体系结构（传感器数据）,cassandra,apache-spark,bigdata,apache-kafka,Cassandra,Apache Spark,Bigdata,Apache Kafka,一个新项目来到我手中，对我自己来说很有趣。我需要存储来自工业plc（控制工厂内的机器）的所有数据，plc中的每个事件都会生成一个输出，需要保存以供数据分析后使用。我想知道，对于这种类型的数据（时间序列）来说，什么才是最完美的匹配，以形成一个洞结构来管理数据IO，目前只查询图形（稍后将应用机器学习分析进行预测性维护）我不知道我的工作方向是否正确，如果能从该学科的专家那里学到一些知识，那将是一件好事 IO制作人（这是一个自己制作的项目，不能更改） IO事件层-->apache kafka是一个

一个新项目来到我手中，对我自己来说很有趣。我需要存储来自工业plc（控制工厂内的机器）的所有数据，plc中的每个事件都会生成一个输出，需要保存以供数据分析后使用。我想知道，对于这种类型的数据（时间序列）来说，什么才是最完美的匹配，以形成一个洞结构来管理数据IO，目前只查询图形（稍后将应用机器学习分析进行预测性维护）

我不知道我的工作方向是否正确，如果能从该学科的专家那里学到一些知识，那将是一件好事

IO制作人（这是一个自己制作的项目，不能更改）

IO事件层-->apache kafka是一个选项，用于管理来自许多不同计算机（收集到PLC）的大量信号，并管理保存到nosql数据库的数据。（适用于此？有更好的选择吗）

nosql数据库-->这一点在选择Cassandra存储时间序列时更为明确

查询nosql数据-->我们选择spark进行快速查询，然后进行一些数据分析

我有更多疑问的那一层是在存储之前管理io数据的那一层，我严重怀疑卡夫卡是正确的选择

谢谢你的阅读，对不起我的英语不好；）请随意发表您的观点。

我们有一个基于传感器数据的类似项目。我们每天大约有30 GB的数据。我们使用kafka流化数据并将其存储在hdfs中。我们有一套python（numpy、pandas和pyspark）以及spark，用于任何数据处理，基本上用于预测部分。就你对卡夫卡的怀疑而言。。。它能够处理大型数据集。另一个好处是卡夫卡可以处理多个来源，并且更容易扩展。

就数据存储而言，我建议您使用HDFS，因为它可以以多种方式使用数据。如果将来需要，您可以利用hive或hbase。

Hi！堆栈溢出不是讨论此类设计的好地方。更集中、非主观的技术问题在这里有更好的机会得到好的答案。对于这样的设计问题，我建议用户提供上述项目的邮件列表。明确地users@kafka.apache.org.Thank对于你的回答，如果你直接向一个确定的项目论坛提问，那么问题将是“这是你必须做的最好的选择”，因为我更喜欢在一个更不可知论的论坛上提问。但是谢谢你的回复是的，我能理解。另一个想法是，如果你在这里没有得到好的回应，你可以试试。