Apache spark Spark如何加快JanusGraph的批量装载?
我需要从其他存储加载很多顶点和边到JanusGraph和Cassandra后端。我读过有关批量加载和Spark配置(和)的内容 很清楚如何配置JanusGraph以使用Spark,但我仍然不确定如何使用Spark,以及Spark是否有助于加快插入graph的速度Apache spark Spark如何加快JanusGraph的批量装载?,apache-spark,bulkinsert,janusgraph,Apache Spark,Bulkinsert,Janusgraph,我需要从其他存储加载很多顶点和边到JanusGraph和Cassandra后端。我读过有关批量加载和Spark配置(和)的内容 很清楚如何配置JanusGraph以使用Spark,但我仍然不确定如何使用Spark,以及Spark是否有助于加快插入graph的速度 请给出一些使用Hadoop MapReduce或Spark加速向Janusgraph批量加载数据的用例和代码示例(首选Java或Python)。欢迎任何帮助 我最近参与了POC项目,使用ApacheSpark将数据批量加载到JanusG
请给出一些使用Hadoop MapReduce或Spark加速向Janusgraph批量加载数据的用例和代码示例(首选Java或Python)。欢迎任何帮助 我最近参与了POC项目,使用ApacheSpark将数据批量加载到JanusGraph中。我们在使用Spark加载数据时获得了相当好的性能。下面的文章提供了设置和示例代码
或者,您可以编写卡夫卡消费者应用程序,将数据从卡夫卡加载到JanusGraph。并行度将限制为应用程序从中读取数据的源/输入主题的分区数。应用程序将是单线程的,但您可以根据输入主题的数量扩展应用程序。应用程序的每个实例都可以打开连接并使用事务写入JanusGraph。您可以使用一定批量大小的批处理事务来分散负载。请至少提供您如何处理事务的要点(使用了哪些包、配置选项等),因为链接可能会消失。非常感谢。