Performance 按比例加载数PB的数据_Performance_Hadoop_Apache Spark_Hpcc_Bigdata

Performance 按比例加载数PB的数据

performance hadoop apache-spark

Performance 按比例加载数PB的数据,performance,hadoop,apache-spark,hpcc,bigdata,Performance,Hadoop,Apache Spark,Hpcc,Bigdata,我需要在一秒钟内将数PB的文本数据加载到存储RAM/SSD中下面是解决上述问题的一些问题 1实际上/理论上是否可能在一秒钟内加载数PB的数据？ 2为了在亚秒内实现PB级数据的快速加载，最好的设计方法是什么。 3是否有可用的基准方法我可以用Hadoop、spark、HPCC等任何技术实现。PB。。。。一秒钟之内。认真地请检查：它是1.000.000 GB 也检查一下。即使是最快的RAM也不能处理超过10 GB/s的数据，实际上这要低得多只是好奇：您的用例是什么？不，目前在技术上不可能。甚至R

我需要在一秒钟内将数PB的文本数据加载到存储RAM/SSD中

下面是解决上述问题的一些问题

1实际上/理论上是否可能在一秒钟内加载数PB的数据？ 2为了在亚秒内实现PB级数据的快速加载，最好的设计方法是什么。 3是否有可用的基准方法

我可以用Hadoop、spark、HPCC等任何技术实现。

PB。。。。一秒钟之内。认真地请检查：它是1.000.000 GB

也检查一下。即使是最快的RAM也不能处理超过10 GB/s的数据，实际上这要低得多

只是好奇：您的用例是什么？

不，目前在技术上不可能。甚至RAM内存都不够快，更不用说明显的容量限制了。最快的SSD M.2驱动器您可以获得大约1.2GB/s的写入速度，而使用raid 0，您最多可以达到大约3GB/s的速度。还有一些经济限制，因为这些驱动器本身相当昂贵。所以要回答你的问题，这些速度在目前技术上是不可能的

从HPCC的角度来看

Thor设计用于加载数据并支持多台服务器。然而，我听说最大的集群大约有4000台服务器。Thor的设计目的是在很长的时间甚至一周内加载大量数据

另一方面，Roxie的设计旨在快速提供数据，但这不是您所要求的……它也不能在一秒钟内提供PB。

我明白了，我不仅仅是在寻找基于RAM的解决方案，即使它可以是SSD。我的使用案例是在像CERN这样的核物理研究项目上。我不明白为什么不能。如果有足够的时间和金钱，当然。不过，要实现这一规模，每PB可能需要1000-2000台服务器