Apache spark Spark中的磁盘读取速度差异

Apache spark Spark中的磁盘读取速度差异,apache-spark,hive,hdfs,Apache Spark,Hive,Hdfs,我正在测试使用Spark加载存储在HDFS中的表需要多长时间(我使用的是JavaHiveContext) 我的表是22,4Gb,分为215个块,所以当我阅读它时,我得到了215个任务 从结果来看,每个任务的读取速度为42Mb/秒(每个任务读取107Mb的速度为2,54秒)(在我的测试中,我使用1个带一个内核的执行器),但在我的主机上,磁盘速度不低于100Mb/秒 为什么会出现这种差异?“磁盘速度不低于100Mb/秒”>>>您的意思是,从理论上讲,在单个磁盘上执行顺序读取的单个任务在预热后应达到1

我正在测试使用Spark加载存储在HDFS中的表需要多长时间(我使用的是JavaHiveContext)

我的表是22,4Gb,分为215个块,所以当我阅读它时,我得到了215个任务

从结果来看,每个任务的读取速度为42Mb/秒(每个任务读取107Mb的速度为2,54秒)(在我的测试中,我使用1个带一个内核的执行器),但在我的主机上,磁盘速度不低于100Mb/秒

为什么会出现这种差异?

“磁盘速度不低于100Mb/秒”>>>您的意思是,从理论上讲,在单个磁盘上执行顺序读取的单个任务在预热后应达到100Mb/秒?