Migration 将数百万个节点和边从0.44迁移到0.5有哪些方法？_Migration_Graph Databases_Titan

Migration 将数百万个节点和边从0.44迁移到0.5有哪些方法？

migration

Migration 将数百万个节点和边从0.44迁移到0.5有哪些方法？,migration,graph-databases,titan,Migration,Graph Databases,Titan,我正在将整个Titan graph数据库从0.44迁移到0.5。大约有1.2亿个节点和9000万个边缘，即千兆字节的数据。我尝试了GraphML格式，但没有成功您能推荐迁移的方法吗？按照您描述的规模，您可能会使用Titan Hadoop/Faunus执行最有效的迁移。一般程序将是：使用Faunus 0.4.x从图形中提取数据，并将其存储在HDFS中使用Titan Hadoop 0.5.x读取图形并写回存储后端在执行步骤2之前，请确保已在目标后端中创建了架构顺便说一句，GraphML对于

我正在将整个Titan graph数据库从0.44迁移到0.5。大约有1.2亿个节点和9000万个边缘，即千兆字节的数据。我尝试了GraphML格式，但没有成功

您能推荐迁移的方法吗？

按照您描述的规模，您可能会使用Titan Hadoop/Faunus执行最有效的迁移。一般程序将是：

使用Faunus 0.4.x从图形中提取数据，并将其存储在HDFS中

使用Titan Hadoop 0.5.x读取图形并写回存储后端

在执行步骤2之前，请确保已在目标后端中创建了架构

顺便说一句，GraphML对于这种大小的图形来说不是一种好的格式——如果它能够工作的话，它将花费太长的时间并且需要大量的资源。您可能想知道，如果您使用的是Faunus/Titan Hadoop，为什么不使用序列文件……在这种情况下，您不能使用序列文件的原因是，我认为0.4.x和0.5.x之间在序列文件的文件格式方面存在版本差异。换句话说，0.5.x无法读取0.4.x序列文件。GraphSON在两个版本中都是可读的，因此它是一种理想的迁移格式。

按照您描述的大小，使用Titan Hadoop/Faunus可能会执行最有效的迁移。一般程序将是：

使用Faunus 0.4.x从图形中提取数据，并将其存储在HDFS中

使用Titan Hadoop 0.5.x读取图形并写回存储后端

在执行步骤2之前，请确保已在目标后端中创建了架构

按照您描述的大小，使用Titan Hadoop/Faunus可能会执行最有效的迁移。一般程序将是：

使用Faunus 0.4.x从图形中提取数据，并将其存储在HDFS中

使用Titan Hadoop 0.5.x读取图形并写回存储后端

在执行步骤2之前，请确保已在目标后端中创建了架构

按照您描述的大小，使用Titan Hadoop/Faunus可能会执行最有效的迁移。一般程序将是：

使用Faunus 0.4.x从图形中提取数据，并将其存储在HDFS中

使用Titan Hadoop 0.5.x读取图形并写回存储后端

在执行步骤2之前，请确保已在目标后端中创建了架构

顺便说一句，GraphML对于这种大小的图形来说不是一种好的格式——如果它能够工作的话，它将花费太长的时间并且需要大量的资源。您可能想知道，如果您使用的是Faunus/Titan Hadoop，为什么不使用序列文件……在这种情况下，您不能使用序列文件的原因是，我认为0.4.x和0.5.x之间在序列文件的文件格式方面存在版本差异。换句话说，0.5.x无法读取0.4.x序列文件。GraphSON两个版本都可读，因此它是理想的迁移格式。

您有多少个顶点/边？大约有1.2亿个节点和9000万个edges@Jacek，感谢编辑您有多少个顶点/边？大约有1.2亿个节点和9000万个edges@Jacek,感谢编辑您有多少个顶点/边？大约有1.2亿个节点和9000万个edges@Jacek，感谢编辑您有多少个顶点/边？大约有1.2亿个节点和9000万个edges@Jacek，感谢编辑我尝试了你提出的方法，这个想法对一个示例图（Wiki投票图）有效，但是，我正在尝试迁移到titan 0.5的图表不起作用。在将图形信息移动到HDFS中时，我不断遇到错误。一旦jobtracker达到映射阶段的19%左右，它就会被挂起。然后我尝试修改各种hadoop配置，包括增加map的堆空间和减少任务，但都不起作用。我最近在jobtracker日志中遇到的错误是：“error org.apache.hadoop.mapred.TaskStatus:试图为任务设置非法的startTime”。请告诉我，如果您有任何想法，我不熟悉该错误，因此我不确定我能提供什么修复方法。这听起来像是一个与hadoop配置相关的错误，但我不确定。您是否尝试过使用序列文件而不是GraphSON将数据从0.4提取到HDFS？看看这是否会改变你的结果。如果序列文件输出正常，则您可以尝试从序列文件转换为GraphSON，然后继续迁移的第2步。@stephen，感谢您的帮助，我将尝试将其存储在序列文件中。当我将cassandra.thrift.framed.size_mb增加到2000以上时，Faunus开始抛出错误