Python 如何将传感器数据存储到Apache Hadoop HDFS、Hive、HBase或其他应用程序中
假设您正在从CSV文件中读取数百万数据行。每行显示传感器名称、当前传感器值以及观察到该值时的时间戳Python 如何将传感器数据存储到Apache Hadoop HDFS、Hive、HBase或其他应用程序中,python,hadoop,hdfs,signal-processing,sensors,Python,Hadoop,Hdfs,Signal Processing,Sensors,假设您正在从CSV文件中读取数百万数据行。每行显示传感器名称、当前传感器值以及观察到该值时的时间戳 key, value, timestamp temp_x, 8°C, 10:52am temp_x, 25°C, 11:02am temp_x, 30°C, 11:12am 这与这样的信号有关: 因此,我想知道将其存储到ApacheHadoop HDFS中的最佳和最有效的方法是什么。第一个想法是使用BigTable,又称HBase。这里,信号名称是行键,而值是随时间保存值的列组。可以向该行键添
key, value, timestamp
temp_x, 8°C, 10:52am
temp_x, 25°C, 11:02am
temp_x, 30°C, 11:12am
这与这样的信号有关:
因此,我想知道将其存储到ApacheHadoop HDFS中的最佳和最有效的方法是什么。第一个想法是使用BigTable,又称HBase。这里,信号名称是行键,而值是随时间保存值的列组。可以向该行键添加更多的列组(例如实例统计)
另一个想法是使用表格(或类似SQL的)结构。但是,然后在每一行中复制密钥。您必须根据需求计算统计数据并单独存储(这里是第二个表)
我想知道是否有更好的办法。存储之后,我想用Python/PySpark读取这些数据,并进行数据分析和机器学习。因此,数据应该使用一个模式(Schem-RDD)容易访问。 < P>我会考虑使用.< /P>
- 使用从CSV文件加载数据
- 清理数据
- 写入qarquet文件(以节省空间和时间)
- 从拼花文件加载数据
- 分析它
- 也许可以作为中间结果保存