Jupyter notebook GoogleDataProc和Jupyter-下载笔记本电脑生成的文件_Jupyter Notebook_Google Cloud Dataproc

Jupyter notebook GoogleDataProc和Jupyter-下载笔记本电脑生成的文件

jupyter-notebook

Jupyter notebook GoogleDataProc和Jupyter-下载笔记本电脑生成的文件,jupyter-notebook,google-cloud-dataproc,Jupyter Notebook,Google Cloud Dataproc,我们使用GoogleCloudDataProc进行快速数据分析，我们还经常使用Jupyter笔记本电脑。对于我们来说，一个常见的情况是生成一个报告，然后将其作为csv下载在本地Jupyter环境中，可以使用FileLink进行此操作，例如：从IPython.display导入文件链接 df.to_csv（路径）文件链接（路径）这不适用于Dataproc，因为笔记本保存在Google存储桶中，生成的链接与该前缀相关，例如http://my-cluster-m:8123/notebooks

我们使用GoogleCloudDataProc进行快速数据分析，我们还经常使用Jupyter笔记本电脑。对于我们来说，一个常见的情况是生成一个报告，然后将其作为csv下载

在本地Jupyter环境中，可以使用

FileLink

进行此操作，例如：

从IPython.display导入文件链接
df.to_csv（路径）
文件链接（路径）

这不适用于Dataproc，因为笔记本保存在Google存储桶中，生成的链接与该前缀相关，例如

http://my-cluster-m:8123/notebooks/my-笔记本桶/笔记本/my_csv.csv

有人知道如何克服这个问题吗？当然，我们可以

scp

从机器上获取文件，但我们正在寻找更方便的方法。

要共享报告，您可以将其保存到谷歌云存储（GCS）而不是本地文件

要执行此操作，请将您的Pandas数据框添加到Spark数据框并将其写入GCS：

sparkDf=SQLContext（SparkContext.getOrCreate（））.createDataFrame（df）
sparkDf.write.csv（“gs://”）

谢谢，这会有用，但不是我想要的。实际上，使用Dask进行此操作更好。但我正在寻找一种更方便的无需转换的方法。在本例中，您可能希望尝试通过在调用中指定

URL\u prefix

和/或

result\u html\u prefix

参数来覆盖URL前缀。我尝试过一些尝试，但找不到解决方法。你知道我应该使用什么前缀或html_前缀吗？我猜你需要指定主主机名作为前缀，但无论如何，你需要通过打开不安全的防火墙规则或ssh进入不方便的网络，使其可以访问internet。这就是为什么最好的选择是使用GCS共享您的报告。