Apache kafka 其中一名工人不在工作_Apache Kafka_Spark Streaming_Spark Cassandra Connector_Apache Spark Standalone

Apache kafka 其中一名工人不在工作

apache-kafka

Apache kafka 其中一名工人不在工作,apache-kafka,spark-streaming,spark-cassandra-connector,apache-spark-standalone,Apache Kafka,Spark Streaming,Spark Cassandra Connector,Apache Spark Standalone,我使用带有2个工作进程的独立集群。使用spark kafka cassandra hdfs流 val stream = kafkaUtils.createDirectStream... stream.map(rec => Row(rec.offset, rev.value)).saveToCassandra(...) stream.map(_.value).foreachRDD(rdd => {saving to HDFS}) 我向卡夫卡发送大约40000 msg/秒第一件事是

我使用带有2个工作进程的独立集群。使用spark kafka cassandra hdfs流

val stream = kafkaUtils.createDirectStream...
stream.map(rec => Row(rec.offset, rev.value)).saveToCassandra(...)
stream.map(_.value).foreachRDD(rdd => {saving to HDFS})

我向卡夫卡发送大约40000 msg/秒第一件事是saveToCassandra工作得很慢，因为如果我对stream.saveToCassandra进行注释，它工作得又好又快。在spark驱动程序UI中，我看到5MB输出大约需要20秒。我试着调整spark cassandra选项，但也需要最少14秒

第二个是我提到的，我的一个工人什么也不做，我看到这样的情况：

10:05:33 INFO remove RDD#

等等

但如果我阻止另一个工人，它就会开始工作

我不使用spark提交，只是

startSpark扩展应用程序{

和孔代码，然后以

scala -cp "spark libs:kafka:startSpark.jar" startSpark

在对workers的配置中，我使用

ssc.sparkContext.addJars（pathToNeedableJars）

我如何提高对卡桑德拉的写作能力，以及如何让我的员工一起工作？

我读了官方的spark kafka集成指南《问题》（the problem），这是我在主题1分区中使用的

Kafka分区和Spark分区之间的1:1对应关系

还通过火花壳使用了它——masterspark://192.168.1.40:7077 和：粘贴模式。结果和以前一样，一个节点什么都不做Park 2.1.1，kafka 0.10.2.1