Pyspark Google Compute中的Spark SaveAstext文件需要二次时间_Pyspark_Google Compute Engine

Pyspark Google Compute中的Spark SaveAstext文件需要二次时间

pyspark google-compute-engine

Pyspark Google Compute中的Spark SaveAstext文件需要二次时间,pyspark,google-compute-engine,Pyspark,Google Compute Engine,我正在谷歌电脑的Jupyter笔记本上与PySpark合作我正在使用saveAsTextFile将文件保存到云存储。问题是，就文件中记录的数量而言，这需要二次时间。这对于相当大的文件来说效果不太好我使用的命令是 bigFile_save.saveAsTextFile("gs://myBucket/myFolder") 有没有办法更有效地做事根据要求，需要一个更完整的代码示例 # We start with a ColumnSimilarity matrix. This is upper-

我正在谷歌电脑的Jupyter笔记本上与PySpark合作

我正在使用saveAsTextFile将文件保存到云存储。问题是，就文件中记录的数量而言，这需要二次时间。这对于相当大的文件来说效果不太好

我使用的命令是

bigFile_save.saveAsTextFile("gs://myBucket/myFolder")

有没有办法更有效地做事

根据要求，需要一个更完整的代码示例

# We start with a ColumnSimilarity matrix. This is upper-triangular,
# so we append the transpose
x1 = columnSim.entries.map(lambda x: x)
x2 = columnSim.transpose().entries.map(lambda x: x)
x3 = (x1 + x2)
distMat= x3.map(lambda p: (p.i,p.j,p.value))

# Save the similarity file. Convert column indicies to meaningful
# names

bigFile_save = distMap.map(lambda p: (names[p[0]],names[p[1]],p[2]))

t1 = time.time()
bigFile_save.saveAsTextFile("gs://myBucket/myFolder")
t2 = time.time()

timeDiff = t2 - t1

考虑到这一点，可能发生的是延迟执行：在实际打印输出之前，名称[p[0]]可能无法解析。

如何创建

bigFile\u save

RDD？它来自转换为（i，j，value）元组的矩阵。您能用完整的源代码更新问题吗？我几乎可以肯定，除了保存ASTEXTFILE之外，您的性能问题还存在于其他地方。