Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark如何加快JanusGraph的批量装载?_Apache Spark_Bulkinsert_Janusgraph - Fatal编程技术网

Apache spark Spark如何加快JanusGraph的批量装载?

Apache spark Spark如何加快JanusGraph的批量装载?,apache-spark,bulkinsert,janusgraph,Apache Spark,Bulkinsert,Janusgraph,我需要从其他存储加载很多顶点和边到JanusGraph和Cassandra后端。我读过有关批量加载和Spark配置(和)的内容 很清楚如何配置JanusGraph以使用Spark,但我仍然不确定如何使用Spark,以及Spark是否有助于加快插入graph的速度 请给出一些使用Hadoop MapReduce或Spark加速向Janusgraph批量加载数据的用例和代码示例(首选Java或Python)。欢迎任何帮助 我最近参与了POC项目,使用ApacheSpark将数据批量加载到JanusG

我需要从其他存储加载很多顶点和边到JanusGraph和Cassandra后端。我读过有关批量加载和Spark配置(和)的内容

很清楚如何配置JanusGraph以使用Spark,但我仍然不确定如何使用Spark,以及Spark是否有助于加快插入graph的速度


请给出一些使用Hadoop MapReduce或Spark加速向Janusgraph批量加载数据的用例和代码示例(首选Java或Python)。欢迎任何帮助

我最近参与了POC项目,使用ApacheSpark将数据批量加载到JanusGraph中。我们在使用Spark加载数据时获得了相当好的性能。下面的文章提供了设置和示例代码


或者,您可以编写卡夫卡消费者应用程序,将数据从卡夫卡加载到JanusGraph。并行度将限制为应用程序从中读取数据的源/输入主题的分区数。应用程序将是单线程的,但您可以根据输入主题的数量扩展应用程序。应用程序的每个实例都可以打开连接并使用事务写入JanusGraph。您可以使用一定批量大小的批处理事务来分散负载。

请至少提供您如何处理事务的要点(使用了哪些包、配置选项等),因为链接可能会消失。非常感谢。