Apache spark 如何在datastax中实现rdd.bulkSaveToCassandra 我正在使用datastax集群和5.0.5。

Apache spark 如何在datastax中实现rdd.bulkSaveToCassandra 我正在使用datastax集群和5.0.5。,apache-spark,cassandra,spark-cassandra-connector,Apache Spark,Cassandra,Spark Cassandra Connector,使用spark cassandra连接器1.6.8 我试图实现下面的代码。。导入不起作用 val rdd:rdd[SomeType]=…//创建一些RDD以保存导入 com.datastax.bdp.spark.writer.BulkTableWriter_ rdd.bulkSaveToCassandrakeyspace,表格 有人能建议我如何实现这个代码吗。它们是否需要依赖于此。Cassandra Spark Connector具有saveToCassandra方法,该方法可用于以下情况: 还

使用spark cassandra连接器1.6.8

我试图实现下面的代码。。导入不起作用

val rdd:rdd[SomeType]=…//创建一些RDD以保存导入 com.datastax.bdp.spark.writer.BulkTableWriter_ rdd.bulkSaveToCassandrakeyspace,表格
有人能建议我如何实现这个代码吗。它们是否需要依赖于此。

Cassandra Spark Connector具有saveToCassandra方法,该方法可用于以下情况:

还有一个saveAsCassandratablex,它允许您控制模式创建和其他事情——上面引用的文档中也描述了它

要使用它们,您需要导入com.datastax.spark.connector.u文档中描述的

您需要添加相应的依赖项,但这取决于您使用的构建系统


只有在使用DSE的连接器时,bulkSaveToCassandra方法才可用。您需要添加相应的依赖项-有关更多详细信息,请参阅。但即使这样,最好还是用saveToCassandra来代替它。

谢谢Alex。我正在寻找bulkSaveToCassandra APi。知道吗?更新了Ansertanks Alex。我寻找的原因是,我使用DF.write.formatorg.apache.spark.sql.cassandra运行作业。3200万张唱片用了36分钟。此方法调用时,火花级怠速约12分钟。我可以在驱动程序com.datasax.spark.connector.cql.CassandraConnector中看到日志:从Cassandra群集断开连接,然后重新连接并开始加载。你知道为什么它在加载到cassandra时会断开连接吗?读取大块数据时可能会超时,或者类似的情况。但是如果没有代码,很难说。如果解决了你的问题,请考虑接受这个答案。”钱德拉
[cqlsh 5.0.1 | Cassandra 3.0.11.1485 | DSE 5.0.5 | CQL spec 3.4.0 | Native proto
val collection = sc.parallelize(Seq(("cat", 30), ("fox", 40)))
collection.saveToCassandra("test", "words", SomeColumns("word", "count"))