Python 如何将传感器数据存储到Apache Hadoop HDFS、Hive、HBase或其他应用程序中_Python_Hadoop_Hdfs_Signal Processing_Sensors

Python 如何将传感器数据存储到Apache Hadoop HDFS、Hive、HBase或其他应用程序中

python hadoop

Python 如何将传感器数据存储到Apache Hadoop HDFS、Hive、HBase或其他应用程序中,python,hadoop,hdfs,signal-processing,sensors,Python,Hadoop,Hdfs,Signal Processing,Sensors,假设您正在从CSV文件中读取数百万数据行。每行显示传感器名称、当前传感器值以及观察到该值时的时间戳 key, value, timestamp temp_x, 8°C, 10:52am temp_x, 25°C, 11:02am temp_x, 30°C, 11:12am 这与这样的信号有关：因此，我想知道将其存储到ApacheHadoop HDFS中的最佳和最有效的方法是什么。第一个想法是使用BigTable，又称HBase。这里，信号名称是行键，而值是随时间保存值的列组。可以向该行键添

假设您正在从CSV文件中读取数百万数据行。每行显示传感器名称、当前传感器值以及观察到该值时的时间戳

key, value, timestamp
temp_x, 8°C, 10:52am
temp_x, 25°C, 11:02am
temp_x, 30°C, 11:12am

这与这样的信号有关：

因此，我想知道将其存储到ApacheHadoop HDFS中的最佳和最有效的方法是什么。第一个想法是使用BigTable，又称HBase。这里，信号名称是行键，而值是随时间保存值的列组。可以向该行键添加更多的列组（例如实例统计）

另一个想法是使用表格（或类似SQL的）结构。但是，然后在每一行中复制密钥。您必须根据需求计算统计数据并单独存储（这里是第二个表）

我想知道是否有更好的办法。存储之后，我想用Python/PySpark读取这些数据，并进行数据分析和机器学习。因此，数据应该使用一个模式（Schem-RDD）容易访问。

< P>我会考虑使用.< /P>

使用从CSV文件加载数据
清理数据
写入qarquet文件（以节省空间和时间）
从拼花文件加载数据
分析它
也许可以作为中间结果保存

谢谢。这也是我们目前的方法。您是否尝试过以Avro格式保存以查看性能差异？是的，我们在其他不同的项目中尝试过，感觉拼花地板在性能方面更好。我认为拼花地板适合大多数使用情况，除了同一列中的数据差异很大，并且总是在几乎所有列上进行分析。我在这里也有同样的情况，不知道如何处理。那么，使用sparksql或df/ds API将数据保存为拼花地板和加载/分析是否合理？由于它是时间序列数据，我们是否应该将数据存储在任何类型的nosql数据库中，因为我们经常随机访问数据？