Python 如何将传感器数据存储到Apache Hadoop HDFS、Hive、HBase或其他应用程序中

Python 如何将传感器数据存储到Apache Hadoop HDFS、Hive、HBase或其他应用程序中,python,hadoop,hdfs,signal-processing,sensors,Python,Hadoop,Hdfs,Signal Processing,Sensors,假设您正在从CSV文件中读取数百万数据行。每行显示传感器名称、当前传感器值以及观察到该值时的时间戳 key, value, timestamp temp_x, 8°C, 10:52am temp_x, 25°C, 11:02am temp_x, 30°C, 11:12am 这与这样的信号有关: 因此,我想知道将其存储到ApacheHadoop HDFS中的最佳和最有效的方法是什么。第一个想法是使用BigTable,又称HBase。这里,信号名称是行键,而值是随时间保存值的列组。可以向该行键添

假设您正在从CSV文件中读取数百万数据行。每行显示传感器名称、当前传感器值以及观察到该值时的时间戳

key, value, timestamp
temp_x, 8°C, 10:52am
temp_x, 25°C, 11:02am
temp_x, 30°C, 11:12am
这与这样的信号有关:

因此,我想知道将其存储到ApacheHadoop HDFS中的最佳和最有效的方法是什么。第一个想法是使用BigTable,又称HBase。这里,信号名称是行键,而值是随时间保存值的列组。可以向该行键添加更多的列组(例如实例统计)

另一个想法是使用表格(或类似SQL的)结构。但是,然后在每一行中复制密钥。您必须根据需求计算统计数据并单独存储(这里是第二个表)


我想知道是否有更好的办法。存储之后,我想用Python/PySpark读取这些数据,并进行数据分析和机器学习。因此,数据应该使用一个模式(Schem-RDD)容易访问。

< P>我会考虑使用.< /P>
  • 使用从CSV文件加载数据
  • 清理数据
  • 写入qarquet文件(以节省空间和时间)

  • 从拼花文件加载数据

  • 分析它
  • 也许可以作为中间结果保存

谢谢。这也是我们目前的方法。您是否尝试过以Avro格式保存以查看性能差异?是的,我们在其他不同的项目中尝试过,感觉拼花地板在性能方面更好。我认为拼花地板适合大多数使用情况,除了同一列中的数据差异很大,并且总是在几乎所有列上进行分析。我在这里也有同样的情况,不知道如何处理。那么,使用sparksql或df/ds API将数据保存为拼花地板和加载/分析是否合理?由于它是时间序列数据,我们是否应该将数据存储在任何类型的nosql数据库中,因为我们经常随机访问数据?