Parallel processing 火花并联_Parallel Processing

Parallel processing 火花并联

parallel-processing

Parallel processing 火花并联,parallel-processing,Parallel Processing,我有方法A（）来比较蛋白质的一对3D结构（3D对象）。我想对蛋白质的10000000对重复这个方法。一个蛋白质描述在一个文本文件中，它们是分开的。如何使用spark并行重复的方法？感谢您的帮助。对于初学者，您可以将数据框与用户定义的函数结合使用，该函数将（）应用于数据框的列以进行比较。制定一个完整的示例需要更多的细节，但是对于并行化，您可以看一看，hi mkaran，方法a（）i）读取2个文本文件，提取3D坐标，以及信息ii）查找maxiu集团iii）将结果保存到arrayrepeat a（

我有方法

A（）

来比较蛋白质的一对3D结构（3D对象）。我想对蛋白质的

10000000对重复这个方法。一个蛋白质描述在一个文本文件中，它们是分开的。
如何使用spark并行重复的方法？
感谢您的帮助。
对于初学者，您可以将数据框与用户定义的函数结合使用，该函数将（）应用于数据框的列以进行比较。制定一个完整的示例需要更多的细节，但是对于并行化，您可以看一看，hi mkaran，方法a（）i）读取2个文本文件，提取3D坐标，以及信息ii）查找maxiu集团iii）将结果保存到arrayrepeat a（）以获得1000000个pairsA（）速度非常快，虽然它可能会有大文件的计算瓶颈，spark将在这里提供帮助。但真正的问题是重复10万次。我通常使用adhoc多线程，线程池中同时有10个线程。我的问题是1）我的临时实现可以在数千个节点的集群中运行吗？我认为它只能在我典型的PC 2核心Ram 4G上运行。如何在spark中实现它非常感谢