Curl 在DataRicks+;星火笔记本

Curl 在DataRicks+;星火笔记本,curl,apache-spark,databricks,Curl,Apache Spark,Databricks,我正在用Databricks运行一个Spark群集。我想使用curl从服务器传输数据。比如说, curl -H "Content-Type: application/json" -H "auth:xxxx" -X GET "https://websites.net/Automation/Offline?startTimeInclusive=201609240100&endTimeExclusive=201609240200&dataFormat=json" -k > aut

我正在用Databricks运行一个Spark群集。我想使用curl从服务器传输数据。比如说,

curl -H "Content-Type: application/json" -H "auth:xxxx" -X GET "https://websites.net/Automation/Offline?startTimeInclusive=201609240100&endTimeExclusive=201609240200&dataFormat=json" -k > automation.json

如何在Databricks笔记本中做到这一点(最好是用python,但Scala也可以)?

在Scala中,您可以执行以下操作:

import sys.process._
val command = """curl -H "Content-Type: application/json" -H "auth:xxxx" -X GET "http://google.com" -k > /home/user/automation.json"""
Seq("/bin/bash", "-c", command).!!

在Scala中,您可以执行以下操作:

import sys.process._
val command = """curl -H "Content-Type: application/json" -H "auth:xxxx" -X GET "http://google.com" -k > /home/user/automation.json"""
Seq("/bin/bash", "-c", command).!!

在Databricks中,通过将%sh设置为单元格的第一行,可以从单元格运行shell命令:

%sh
curl -H "Content-Type: application/json" -H "auth:xxxx" -X GET "https://websites.net/Automation/Offline?startTimeInclusive=201609240100&endTimeExclusive=201609240200&dataFormat=json" -k > automation.json

在Databricks中,通过将%sh设置为单元格的第一行,可以从单元格运行shell命令:

%sh
curl -H "Content-Type: application/json" -H "auth:xxxx" -X GET "https://websites.net/Automation/Offline?startTimeInclusive=201609240100&endTimeExclusive=201609240200&dataFormat=json" -k > automation.json

文件保存在dbfs中的什么位置?我尝试了-k>/tmp/automation.json,但无法定位该文件。我还没有在DataRicks环境中对其进行测试,但我不明白为什么如果调用成功返回,您将无法在您提到的位置访问该文件。使用-k>/dbfs/automation.json似乎可行。谢谢。文件保存在dbfs的什么位置?我尝试了-k>/tmp/automation.json,但无法定位该文件。我还没有在DataRicks环境中对其进行测试,但我不明白为什么如果调用成功返回,您将无法在您提到的位置访问该文件。使用-k>/dbfs/automation.json似乎可行。谢谢