Apache spark Spark Cassandra写入性能

Apache spark Spark Cassandra写入性能,apache-spark,cassandra,spark-cassandra-connector,Apache Spark,Cassandra,Spark Cassandra Connector,我正试图通过spark向卡桑德拉加载大约200万张唱片。Spark有4个执行器,cassandra在集群中有4个节点。但将所有数据保存到cassandra大约需要20分钟。有人能帮我把这件事做得快一点吗。好的,这样我就可以看到您的配置有几个问题了 在VM中运行Cassandra以实现性能基准测试 Spark不在同一位置(因此没有数据位置…) 一般来说,在虚拟机中安装Cassandra不建议作为性能基准,这是一种反模式。因此,您的缓慢插入速率是正常的,不要抱怨,在使用VM时,您不能要求更好的性能…

我正试图通过spark向卡桑德拉加载大约200万张唱片。Spark有4个执行器,cassandra在集群中有4个节点。但将所有数据保存到cassandra大约需要20分钟。有人能帮我把这件事做得快一点吗。

好的,这样我就可以看到您的配置有几个问题了

  • 在VM中运行Cassandra以实现性能基准测试
  • Spark不在同一位置(因此没有数据位置…)

  • 一般来说,在虚拟机中安装Cassandra不建议作为性能基准,这是一种反模式。因此,您的缓慢插入速率是正常的,不要抱怨,在使用VM时,您不能要求更好的性能…

    这仅为每秒1.6k次写入,对于C*的4个节点来说,这相当缓慢。如果有人能够帮助你,你需要详细说明更多的信息。你是如何读取记录的?你使用什么代码来写入节点是什么类型的硬件?事实上,我使用Dataframe读取记录,所有节点都有7G内存存储。你能告诉我4节点集群的写入速度吗?如果没有节点详细信息,这类似于询问,“车辆的一般速度是多少?”我希望如果我有4个现代规格的节点,我会看到大约100k/s的写入速度。我是否可以在sparkconf中添加任何参数以使其更快??