Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Pyspark Google Compute中的Spark SaveAstext文件需要二次时间_Pyspark_Google Compute Engine - Fatal编程技术网

Pyspark Google Compute中的Spark SaveAstext文件需要二次时间

Pyspark Google Compute中的Spark SaveAstext文件需要二次时间,pyspark,google-compute-engine,Pyspark,Google Compute Engine,我正在谷歌电脑的Jupyter笔记本上与PySpark合作 我正在使用saveAsTextFile将文件保存到云存储。问题是,就文件中记录的数量而言,这需要二次时间。这对于相当大的文件来说效果不太好 我使用的命令是 bigFile_save.saveAsTextFile("gs://myBucket/myFolder") 有没有办法更有效地做事 根据要求,需要一个更完整的代码示例 # We start with a ColumnSimilarity matrix. This is upper-

我正在谷歌电脑的Jupyter笔记本上与PySpark合作

我正在使用saveAsTextFile将文件保存到云存储。问题是,就文件中记录的数量而言,这需要二次时间。这对于相当大的文件来说效果不太好

我使用的命令是

bigFile_save.saveAsTextFile("gs://myBucket/myFolder")
有没有办法更有效地做事

根据要求,需要一个更完整的代码示例

# We start with a ColumnSimilarity matrix. This is upper-triangular,
# so we append the transpose
x1 = columnSim.entries.map(lambda x: x)
x2 = columnSim.transpose().entries.map(lambda x: x)
x3 = (x1 + x2)
distMat= x3.map(lambda p: (p.i,p.j,p.value))

# Save the similarity file. Convert column indicies to meaningful
# names

bigFile_save = distMap.map(lambda p: (names[p[0]],names[p[1]],p[2]))

t1 = time.time()
bigFile_save.saveAsTextFile("gs://myBucket/myFolder")
t2 = time.time()

timeDiff = t2 - t1

考虑到这一点,可能发生的是延迟执行:在实际打印输出之前,名称[p[0]]可能无法解析。

如何创建
bigFile\u save
RDD?它来自转换为(i,j,value)元组的矩阵。您能用完整的源代码更新问题吗?我几乎可以肯定,除了保存ASTEXTFILE之外,您的性能问题还存在于其他地方。