Pyspark Google Compute中的Spark SaveAstext文件需要二次时间
我正在谷歌电脑的Jupyter笔记本上与PySpark合作 我正在使用saveAsTextFile将文件保存到云存储。问题是,就文件中记录的数量而言,这需要二次时间。这对于相当大的文件来说效果不太好 我使用的命令是Pyspark Google Compute中的Spark SaveAstext文件需要二次时间,pyspark,google-compute-engine,Pyspark,Google Compute Engine,我正在谷歌电脑的Jupyter笔记本上与PySpark合作 我正在使用saveAsTextFile将文件保存到云存储。问题是,就文件中记录的数量而言,这需要二次时间。这对于相当大的文件来说效果不太好 我使用的命令是 bigFile_save.saveAsTextFile("gs://myBucket/myFolder") 有没有办法更有效地做事 根据要求,需要一个更完整的代码示例 # We start with a ColumnSimilarity matrix. This is upper-
bigFile_save.saveAsTextFile("gs://myBucket/myFolder")
有没有办法更有效地做事
根据要求,需要一个更完整的代码示例
# We start with a ColumnSimilarity matrix. This is upper-triangular,
# so we append the transpose
x1 = columnSim.entries.map(lambda x: x)
x2 = columnSim.transpose().entries.map(lambda x: x)
x3 = (x1 + x2)
distMat= x3.map(lambda p: (p.i,p.j,p.value))
# Save the similarity file. Convert column indicies to meaningful
# names
bigFile_save = distMap.map(lambda p: (names[p[0]],names[p[1]],p[2]))
t1 = time.time()
bigFile_save.saveAsTextFile("gs://myBucket/myFolder")
t2 = time.time()
timeDiff = t2 - t1
考虑到这一点,可能发生的是延迟执行:在实际打印输出之前,名称[p[0]]可能无法解析。如何创建
bigFile\u save
RDD?它来自转换为(i,j,value)元组的矩阵。您能用完整的源代码更新问题吗?我几乎可以肯定,除了保存ASTEXTFILE之外,您的性能问题还存在于其他地方。