Apache spark Spark:从REST服务创建RDD

Apache spark Spark:从REST服务创建RDD,apache-spark,Apache Spark,Spark中是否有现成的功能可用于将RDD绑定到REST服务?也就是说,调用web服务并获取RDD 还是我自己调用rest服务并将结果集合转换为RDD的最简单方法 谢谢。您可以参考该链接 我认为您正在寻找的Spark Jobserver的一些功能包括: “火花即服务”:简单的REST接口,用于作业、上下文管理的所有方面 RDD共享和低延迟作业的启动和停止作业上下文;重新启动时更改资源 异步和同步作业API。同步API非常适合低延迟作业 命名RDD以按名称缓存和检索RDD,从而改进作业之间的RD

Spark中是否有现成的功能可用于将RDD绑定到REST服务?也就是说,调用web服务并获取RDD

还是我自己调用rest服务并将结果集合转换为RDD的最简单方法


谢谢。

您可以参考该链接

我认为您正在寻找的Spark Jobserver的一些功能包括:

  • “火花即服务”:简单的REST接口,用于作业、上下文管理的所有方面
  • RDD共享和低延迟作业的启动和停止作业上下文;重新启动时更改资源
  • 异步和同步作业API。同步API非常适合低延迟作业
  • 命名RDD以按名称缓存和检索RDD,从而改进作业之间的RDD共享和重用

希望这能有所帮助。

我使用jersey客户端,读取一个字符串(每行一个复杂的json文档),并使用该字符串执行以下操作:

val stringResponse = request.request().get(classOf[String])
val jsonDataset = session.createDataset[String](Seq(stringResponse))
// try with case class
val parsedResponse = session.read.json(jsonDataset)

…这将生成一个数据框,您可以在其中选择内容。

OP正在寻找一种将web服务数据作为RDD读入Spark的方法。找到了吗?我正在寻找类似的东西,我想在我的Web服务返回的JSON数据上使用Spark SQL。我没有进一步调查这一点,但我想你自己做(创建一个包装器)…我想这并不是很难做到。。。