Parallel processing 火花并联

Parallel processing 火花并联,parallel-processing,Parallel Processing,我有方法A()来比较蛋白质的一对3D结构(3D对象)。我想对蛋白质的10000000对重复这个方法。一个蛋白质描述在一个文本文件中,它们是分开的。 如何使用spark并行重复的方法? 感谢您的帮助。对于初学者,您可以将数据框与用户定义的函数结合使用,该函数将()应用于数据框的列以进行比较。制定一个完整的示例需要更多的细节,但是对于并行化,您可以看一看,hi mkaran,方法a()i)读取2个文本文件,提取3D坐标,以及信息ii)查找maxiu集团iii)将结果保存到arrayrepeat a(

我有方法
A()
来比较蛋白质的一对3D结构(3D对象)。我想对蛋白质的
10000000对重复这个方法。一个蛋白质描述在一个文本文件中,它们是分开的。
如何使用spark并行重复的方法?
感谢您的帮助。

对于初学者,您可以将数据框与用户定义的函数结合使用,该函数将()应用于数据框的列以进行比较。制定一个完整的示例需要更多的细节,但是对于并行化,您可以看一看,hi mkaran,方法a()i)读取2个文本文件,提取3D坐标,以及信息ii)查找maxiu集团iii)将结果保存到arrayrepeat a()以获得1000000个pairsA()速度非常快,虽然它可能会有大文件的计算瓶颈,spark将在这里提供帮助。但真正的问题是重复10万次。我通常使用adhoc多线程,线程池中同时有10个线程。我的问题是1)我的临时实现可以在数千个节点的集群中运行吗?我认为它只能在我典型的PC 2核心Ram 4G上运行。如何在spark中实现它非常感谢