Performance 按比例加载数PB的数据

Performance 按比例加载数PB的数据,performance,hadoop,apache-spark,hpcc,bigdata,Performance,Hadoop,Apache Spark,Hpcc,Bigdata,我需要在一秒钟内将数PB的文本数据加载到存储RAM/SSD中 下面是解决上述问题的一些问题 1实际上/理论上是否可能在一秒钟内加载数PB的数据? 2为了在亚秒内实现PB级数据的快速加载,最好的设计方法是什么。 3是否有可用的基准方法 我可以用Hadoop、spark、HPCC等任何技术实现。PB。。。。一秒钟之内。认真地请检查:它是1.000.000 GB 也检查一下。即使是最快的RAM也不能处理超过10 GB/s的数据,实际上这要低得多 只是好奇:您的用例是什么?不,目前在技术上不可能。甚至R

我需要在一秒钟内将数PB的文本数据加载到存储RAM/SSD中

下面是解决上述问题的一些问题

1实际上/理论上是否可能在一秒钟内加载数PB的数据? 2为了在亚秒内实现PB级数据的快速加载,最好的设计方法是什么。 3是否有可用的基准方法


我可以用Hadoop、spark、HPCC等任何技术实现。

PB。。。。一秒钟之内。认真地请检查:它是1.000.000 GB

也检查一下。即使是最快的RAM也不能处理超过10 GB/s的数据,实际上这要低得多


只是好奇:您的用例是什么?

不,目前在技术上不可能。甚至RAM内存都不够快,更不用说明显的容量限制了。最快的SSD M.2驱动器您可以获得大约1.2GB/s的写入速度,而使用raid 0,您最多可以达到大约3GB/s的速度。还有一些经济限制,因为这些驱动器本身相当昂贵。所以要回答你的问题,这些速度在目前技术上是不可能的

从HPCC的角度来看

Thor设计用于加载数据并支持多台服务器。然而,我听说最大的集群大约有4000台服务器。Thor的设计目的是在很长的时间甚至一周内加载大量数据


另一方面,Roxie的设计旨在快速提供数据,但这不是您所要求的……它也不能在一秒钟内提供PB。

我明白了,我不仅仅是在寻找基于RAM的解决方案,即使它可以是SSD。我的使用案例是在像CERN这样的核物理研究项目上。我不明白为什么不能。如果有足够的时间和金钱,当然。不过,要实现这一规模,每PB可能需要1000-2000台服务器