Migration 将数百万个节点和边从0.44迁移到0.5有哪些方法?

Migration 将数百万个节点和边从0.44迁移到0.5有哪些方法?,migration,graph-databases,titan,Migration,Graph Databases,Titan,我正在将整个Titan graph数据库从0.44迁移到0.5。大约有1.2亿个节点和9000万个边缘,即千兆字节的数据。我尝试了GraphML格式,但没有成功 您能推荐迁移的方法吗?按照您描述的规模,您可能会使用Titan Hadoop/Faunus执行最有效的迁移。一般程序将是: 使用Faunus 0.4.x从图形中提取数据,并将其存储在HDFS中 使用Titan Hadoop 0.5.x读取图形并写回存储后端 在执行步骤2之前,请确保已在目标后端中创建了架构 顺便说一句,GraphML对于

我正在将整个Titan graph数据库从0.44迁移到0.5。大约有1.2亿个节点和9000万个边缘,即千兆字节的数据。我尝试了GraphML格式,但没有成功


您能推荐迁移的方法吗?

按照您描述的规模,您可能会使用Titan Hadoop/Faunus执行最有效的迁移。一般程序将是:

  • 使用Faunus 0.4.x从图形中提取数据,并将其存储在HDFS中
  • 使用Titan Hadoop 0.5.x读取图形并写回存储后端
  • 在执行步骤2之前,请确保已在目标后端中创建了架构


    顺便说一句,GraphML对于这种大小的图形来说不是一种好的格式——如果它能够工作的话,它将花费太长的时间并且需要大量的资源。您可能想知道,如果您使用的是Faunus/Titan Hadoop,为什么不使用序列文件……在这种情况下,您不能使用序列文件的原因是,我认为0.4.x和0.5.x之间在序列文件的文件格式方面存在版本差异。换句话说,0.5.x无法读取0.4.x序列文件。GraphSON在两个版本中都是可读的,因此它是一种理想的迁移格式。

    按照您描述的大小,使用Titan Hadoop/Faunus可能会执行最有效的迁移。一般程序将是:

  • 使用Faunus 0.4.x从图形中提取数据,并将其存储在HDFS中
  • 使用Titan Hadoop 0.5.x读取图形并写回存储后端
  • 在执行步骤2之前,请确保已在目标后端中创建了架构


    顺便说一句,GraphML对于这种大小的图形来说不是一种好的格式——如果它能够工作的话,它将花费太长的时间并且需要大量的资源。您可能想知道,如果您使用的是Faunus/Titan Hadoop,为什么不使用序列文件……在这种情况下,您不能使用序列文件的原因是,我认为0.4.x和0.5.x之间在序列文件的文件格式方面存在版本差异。换句话说,0.5.x无法读取0.4.x序列文件。GraphSON在两个版本中都是可读的,因此它是一种理想的迁移格式。

    按照您描述的大小,使用Titan Hadoop/Faunus可能会执行最有效的迁移。一般程序将是:

  • 使用Faunus 0.4.x从图形中提取数据,并将其存储在HDFS中
  • 使用Titan Hadoop 0.5.x读取图形并写回存储后端
  • 在执行步骤2之前,请确保已在目标后端中创建了架构


    顺便说一句,GraphML对于这种大小的图形来说不是一种好的格式——如果它能够工作的话,它将花费太长的时间并且需要大量的资源。您可能想知道,如果您使用的是Faunus/Titan Hadoop,为什么不使用序列文件……在这种情况下,您不能使用序列文件的原因是,我认为0.4.x和0.5.x之间在序列文件的文件格式方面存在版本差异。换句话说,0.5.x无法读取0.4.x序列文件。GraphSON在两个版本中都是可读的,因此它是一种理想的迁移格式。

    按照您描述的大小,使用Titan Hadoop/Faunus可能会执行最有效的迁移。一般程序将是:

  • 使用Faunus 0.4.x从图形中提取数据,并将其存储在HDFS中
  • 使用Titan Hadoop 0.5.x读取图形并写回存储后端
  • 在执行步骤2之前,请确保已在目标后端中创建了架构



    顺便说一句,GraphML对于这种大小的图形来说不是一种好的格式——如果它能够工作的话,它将花费太长的时间并且需要大量的资源。您可能想知道,如果您使用的是Faunus/Titan Hadoop,为什么不使用序列文件……在这种情况下,您不能使用序列文件的原因是,我认为0.4.x和0.5.x之间在序列文件的文件格式方面存在版本差异。换句话说,0.5.x无法读取0.4.x序列文件。GraphSON两个版本都可读,因此它是理想的迁移格式。

    您有多少个顶点/边?大约有1.2亿个节点和9000万个edges@Jacek,感谢编辑您有多少个顶点/边?大约有1.2亿个节点和9000万个edges@Jacek,感谢编辑您有多少个顶点/边?大约有1.2亿个节点和9000万个edges@Jacek,感谢编辑您有多少个顶点/边?大约有1.2亿个节点和9000万个edges@Jacek,感谢编辑我尝试了你提出的方法,这个想法对一个示例图(Wiki投票图)有效,但是,我正在尝试迁移到titan 0.5的图表不起作用。在将图形信息移动到HDFS中时,我不断遇到错误。一旦jobtracker达到映射阶段的19%左右,它就会被挂起。然后我尝试修改各种hadoop配置,包括增加map的堆空间和减少任务,但都不起作用。我最近在jobtracker日志中遇到的错误是:“error org.apache.hadoop.mapred.TaskStatus:试图为任务设置非法的startTime”。请告诉我,如果您有任何想法,我不熟悉该错误,因此我不确定我能提供什么修复方法。这听起来像是一个与hadoop配置相关的错误,但我不确定。您是否尝试过使用序列文件而不是GraphSON将数据从0.4提取到HDFS?看看这是否会改变你的结果。如果序列文件输出正常,则您可以尝试从序列文件转换为GraphSON,然后继续迁移的第2步。@stephen,感谢您的帮助,我将尝试将其存储在序列文件中。当我将cassandra.thrift.framed.size_mb增加到2000以上时,Faunus开始抛出错误