Jupyter notebook GoogleDataProc和Jupyter-下载笔记本电脑生成的文件

Jupyter notebook GoogleDataProc和Jupyter-下载笔记本电脑生成的文件,jupyter-notebook,google-cloud-dataproc,Jupyter Notebook,Google Cloud Dataproc,我们使用GoogleCloudDataProc进行快速数据分析,我们还经常使用Jupyter笔记本电脑。对于我们来说,一个常见的情况是生成一个报告,然后将其作为csv下载 在本地Jupyter环境中,可以使用FileLink进行此操作,例如: 从IPython.display导入文件链接 df.to_csv(路径) 文件链接(路径) 这不适用于Dataproc,因为笔记本保存在Google存储桶中,生成的链接与该前缀相关,例如http://my-cluster-m:8123/notebooks

我们使用GoogleCloudDataProc进行快速数据分析,我们还经常使用Jupyter笔记本电脑。对于我们来说,一个常见的情况是生成一个报告,然后将其作为csv下载

在本地Jupyter环境中,可以使用
FileLink
进行此操作,例如:

从IPython.display导入文件链接
df.to_csv(路径)
文件链接(路径)
这不适用于Dataproc,因为笔记本保存在Google存储桶中,生成的链接与该前缀相关,例如
http://my-cluster-m:8123/notebooks/my-笔记本桶/笔记本/my_csv.csv


有人知道如何克服这个问题吗?当然,我们可以
scp
从机器上获取文件,但我们正在寻找更方便的方法。

要共享报告,您可以将其保存到谷歌云存储(GCS)而不是本地文件

要执行此操作,请将您的Pandas数据框添加到Spark数据框并将其写入GCS:

sparkDf=SQLContext(SparkContext.getOrCreate()).createDataFrame(df)
sparkDf.write.csv(“gs://”)

谢谢,这会有用,但不是我想要的。实际上,使用Dask进行此操作更好。但我正在寻找一种更方便的无需转换的方法。在本例中,您可能希望尝试通过在调用中指定
URL\u prefix
和/或
result\u html\u prefix
参数来覆盖URL前缀。我尝试过一些尝试,但找不到解决方法。你知道我应该使用什么前缀或html_前缀吗?我猜你需要指定主主机名作为前缀,但无论如何,你需要通过打开不安全的防火墙规则或ssh进入不方便的网络,使其可以访问internet。这就是为什么最好的选择是使用GCS共享您的报告。