Performance Spark standalone:SparkyR:性能问题
我正试图在Spark服务器上运行Sparkyr库中的机器学习算法Performance Spark standalone:SparkyR:性能问题,performance,apache-spark,machine-learning,sparklyr,Performance,Apache Spark,Machine Learning,Sparklyr,我正试图在Spark服务器上运行Sparkyr库中的机器学习算法 1簇 8芯 24G RAM Ubuntu 16.04 火花2.2 独立配置 1名船长/2名工人 每个执行器的内存:4G 8芯/工人 4096工作区内存 实际上,我在一个非常小的数据集(72 x 100)上测试ml_决策树。 我首先从R(read.CSV)中的CSV文件本地读取原始数据集(72 x 7350),执行整形,然后在Spark中加载结果(df_fin)(我直接在安装Spark的集群上运行代码): 35分钟后,在控制台:
- 1簇
- 8芯
- 24G RAM
- Ubuntu 16.04
- 火花2.2
- 独立配置
- 1名船长/2名工人
- 每个执行器的内存:4G
- 8芯/工人
- 4096工作区内存
Vector
类型来组合功能,如果这还不够,则始终可以使用低级APISparkyr
然而,做出了一个不幸的决定,扩展了转换后的特性——这是一个不能很好工作的东西
72 x 7350
用Spark处理这样的数据是没有意义的。如果您可以运行:
df_tbl <- sdf_copy_to(sc,df_fin)
谢谢你的回答。不过,我希望有一些精确性;你说Sparkyr做了不幸的决定是什么意思?你的意思是,如果我用Python或直接用Scala实现,我的代码会工作得更好吗?此外,我想使用Spark,因为在不久的将来,我将不得不处理大量这样的数据帧(临床数据,意味着大量广泛的数据,但也包括成像数据,以进行深入学习);这就是为什么我猜测Spark可能是一个有用的解决方案?你对此有什么看法?
17/08/23 15:35:32 INFO ShuffleBlockFetcherIterator: Getting 0 non-empty blocks out of 200 blocks
17/08/23 15:35:32 INFO ShuffleBlockFetcherIterator: Started 0 remote fetches in 0 ms
17/08/23 15:35:32 INFO ShuffleBlockFetcherIterator: Getting 26 non-empty blocks out of 200 blocks
17/08/23 15:35:32 INFO ShuffleBlockFetcherIterator: Started 1 remote fetches in 1 ms
17/08/23 15:35:32 INFO Executor: Finished task 1.0 in stage 494.0 (TID 39532). 3082 bytes result sent to driver
17/08/23 15:35:32 INFO Executor: Finished task 0.0 in stage 494.0 (TID 39531). 4073 bytes result sent to driver ...
df_tbl <- sdf_copy_to(sc,df_fin)