如何使用Scala 2.11将Kafka作为Apache Spark的流运行?
我还没有找到任何针对Scala 2.11的Kafka的Spark流媒体集成版本。这里有一个是2.10版的 有人能告诉我2.11版本吗?针对您的问题: 现在在Scala 2.11上运行Spark Kafka是不可行的(如何使用Scala 2.11将Kafka作为Apache Spark的流运行?,scala,apache-spark,apache-kafka,Scala,Apache Spark,Apache Kafka,我还没有找到任何针对Scala 2.11的Kafka的Spark流媒体集成版本。这里有一个是2.10版的 有人能告诉我2.11版本吗?针对您的问题: 现在在Scala 2.11上运行Spark Kafka是不可行的(Spark-1.3) 从源代码生成的一般方法: 如果没有可用的预构建版本,您可以自行构建spark,并通过指定一些构建参数来满足您的需求 详细的构建过程可参见: 简而言之,如果根据scala-2.10构建,只需要两个步骤: export MAVEN_OPTS="-Xmx2g -XX:
Spark-1.3
)
从源代码生成的一般方法:
如果没有可用的预构建版本,您可以自行构建spark,并通过指定一些构建参数来满足您的需求
详细的构建过程可参见:
简而言之,如果根据scala-2.10构建,只需要两个步骤:
export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
mvn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package
您应该在第二个命令中指定适合您的情况的配置文件或属性
请注意,Scala 2.11的构建上的零件状态:
要生成使用Scala 2.11编译的Spark包,请使用-Dscala-2.11属性:
dev/change-version-to-2.11.sh
mvn-Pyarn-Phadoop-2.4-Dscala-2.11-DskipTests清洁包装
Spark中的Scala 2.11支持不支持一些功能,因为依赖项本身不支持Scala 2.11具体来说,Spark的外部Kafka库和JDBC组件在Scala 2.11版本中尚不受支持。
当前的Spark文档(1.5.1)不再提到卡夫卡在2.11中不受支持,也不再是实验性的。在用2.11从源代码构建Spark之后,它对我来说运行良好。