Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/database/8.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Database 大数据数据库_Database_Hdf5_Common Data Format_Large Data - Fatal编程技术网

Database 大数据数据库

Database 大数据数据库,database,hdf5,common-data-format,large-data,Database,Hdf5,Common Data Format,Large Data,我正在收集大量数据,这些数据很可能是以下格式: 用户1:(a,o,x,y,z,t,h,u) 其中所有变量都随时间动态变化,u除外-用于存储用户名。我想了解的是,由于我在“大数据”方面的背景不是很强,当我最终使用阵列时,它将非常大,大约108000 x 3500,因为我将对每个时间步进行分析,并绘制它,我想确定一个合适的数据库来管理它。因为这是为了科学研究,我在看CDF和HDF5,根据我在这里读到的内容,我想我会想使用CDF。但这是管理此类数据以提高速度和效率的正确方法吗 最终的数据集将所有的用户

我正在收集大量数据,这些数据很可能是以下格式:

用户1:(a,o,x,y,z,t,h,u)

其中所有变量都随时间动态变化,u除外-用于存储用户名。我想了解的是,由于我在“大数据”方面的背景不是很强,当我最终使用阵列时,它将非常大,大约108000 x 3500,因为我将对每个时间步进行分析,并绘制它,我想确定一个合适的数据库来管理它。因为这是为了科学研究,我在看CDF和HDF5,根据我在这里读到的内容,我想我会想使用CDF。但这是管理此类数据以提高速度和效率的正确方法吗


最终的数据集将所有的用户都作为列,并且这些行将被加上时间戳,因此我的分析程序将逐行读取以解释数据。并在数据集中创建条目。也许我应该看看CouchDB和RDBMS之类的东西,我只是不知道从哪里开始。建议将不胜感激。

这是一个扩展的评论,而不是一个全面的答案

恕我直言,如今,一个大小为108000*3500的数据集并不真正符合大数据的条件,除非您省略了一个单位,例如
GB
。如果只是
108000*3500
字节,那就只有3GB加上更改。你提到的任何技术都可以轻松应对。我认为你应该根据哪种方法可以加快你的发展而不是加快你的执行来做出选择

但是如果你想进一步考虑,我建议:

  • ,及

  • 所有这些在学术大数据社区中都有一定的吸引力,并且也开始在该社区之外使用。

    我一直在使用CDF处理一些类似大小的数据,我认为它应该可以很好地工作。不过,你需要记住一些事情。考虑到我真的不知道你的项目的细节,这可能有帮助,也可能没有帮助

    3GB的数据正好接近旧版CDF的文件大小限制,因此请确保您使用的是最新的库

    虽然3GB的数据并不多,但这取决于您的读写方式,事情可能进展缓慢。确保尽可能使用超读/写功能

    CDF支持元数据(称为全局/变量属性),可以保存用户名和数据描述等信息

    很容易将数据分解为多个文件。我建议每个用户使用一个文件。这意味着您可以将整个文件的用户名作为属性写入一次,而不是写入每个记录

    您需要创建一个名为epoch的额外变量。这是每个记录定义良好的时间戳。我不确定你现在的时间戳是否合适,或者你是否需要处理它,但这是你需要考虑的。此外,epoch变量需要指定特定类型(epoch、epoch16或TT2000)。TT2000是最新的版本,它可以提供纳秒精度并处理闰秒,但是我遇到的大多数CDF阅读器还不能很好地处理它。如果你不需要那种精度,我推荐epoch16,因为这已经是一段时间的标准

    希望这有帮助,如果您使用CDF,请随时用您遇到的任何问题来打扰我