Apache spark 火花2.0与发挥！2.5_Apache Spark_Playframework_Sbt_Playframework 2.5_Apache Spark 2.0

Apache spark 火花2.0与发挥！2.5

apache-spark playframework sbt

Apache spark 火花2.0与发挥！2.5,apache-spark,playframework,sbt,playframework-2.5,apache-spark-2.0,Apache Spark,Playframework,Sbt,Playframework 2.5,Apache Spark 2.0,我正在尝试在游戏中使用Spark 2.0！2.5但我无法使它正常工作（而且似乎在Github上没有示例）我没有任何编译错误，但有一些奇怪的执行错误。例如：几乎所有对数据集或数据帧的操作都会导致空点异常： val ds: Dataset[Event] = df.as[Event] println(ds.count()) //Works well and prints the good results ds.collect() // --> NullPointerException d

我正在尝试在游戏中使用Spark 2.0！2.5但我无法使它正常工作（而且似乎在Github上没有示例）

我没有任何编译错误，但有一些奇怪的执行错误。
例如：几乎所有对

数据集

或

数据帧

的操作都会导致

空点异常

：

val ds: Dataset[Event] = df.as[Event]
println(ds.count()) //Works well and prints the good results
ds.collect() // --> NullPointerException

ds.show

也会导致

NullPointerException

所以我遗漏了一个大问题，所以我认为它来自不兼容的版本。以下是我的

build.sbt

的相关部分：

object Version {
  val scala            = "2.11.8"
  val spark            = "2.0.0"
  val postgreSQL       = "9.4.1211.jre7"
}

object Library {
  val sparkSQL          = "org.apache.spark"            %% "spark-sql"          % Version.spark
  val sparkMLLib        = "org.apache.spark"            %% "spark-mllib"        % Version.spark
  val sparkCore         = "org.apache.spark"            %% "spark-core"         % Version.spark
  val postgreSQL        = "org.postgresql"              %  "postgresql"         % Version.postgreSQL
}

object Dependencies {
  import Library._

  val dependencies = Seq(
    sparkSQL,
    sparkMLLib,
    sparkCore,
    postgreSQL)
}

lazy val root = (project in file("."))
  .settings(scalaVersion := Version.scala)
  .enablePlugins(PlayScala)

libraryDependencies ++= Dependencies.dependencies

dependencyOverrides ++= Set(
  "com.fasterxml.jackson.core" % "jackson-databind" % "2.7.4",
  "com.fasterxml.jackson.module" %% "jackson-module-scala" % "2.7.4"
)

我在Play2.5.12Java中使用spark 2.0.0时遇到了同样的问题。默认情况下，激活器似乎包括com.fasterxml.jackson-databind 2.7.8，并且它不适用于jackson模块scala

我清理了我的sbt缓存

rm -r ~/.ivy2/cache

我的新build.sbt在编译时会产生警告，因为spark 2.0.0是使用jackson-module-scala_2.11:2.6.5编译的，但仍然使用spark 2.8.7使用jackson模块scala

scalaVersion := "2.11.8"
libraryDependencies ++= Seq(
   "com.fasterxml.jackson.core" % "jackson-core" % "2.8.7",
   "com.fasterxml.jackson.core" % "jackson-databind" % "2.8.7",
   "com.fasterxml.jackson.core" % "jackson-annotations" % "2.8.7",
   "com.fasterxml.jackson.module" %% "jackson-module-scala" % "2.8.7",
   "org.apache.spark" % "spark-core_2.11" % "2.0.0",
   "org.apache.spark" % "spark-mllib_2.11" % "2.0.0"
)

从jackson.databind.JsonMappingException派生的NullpointerException:不兼容的jackson版本：2.x.x

请阅读

你能分享更多类似于上面df is dataframe的代码吗？如果它是在公共git repo中，你能给出它的链接吗？我得到我的dataframe是这样的：

spark.sqlContext.read.jdbc（databaseURL，query，connectionProperties）

WARE查询是一个有效的SQL查询。git repo：您在spark shell上试用过它吗？它在spark shell上是否工作正常？因为我试过shell n它的作品和plss你可以显示你得到什么错误。不，我没有试过Spark shell，但我必须在应用程序中直接做它的作品。我在Github littel应用程序中遇到的错误是：尝试将struct映射到Tuple1，但是失败了，因为字段的数量没有对齐