Graph TITAN:识别并删除图中重复的顶点

Graph TITAN:识别并删除图中重复的顶点,graph,graph-databases,titan,gremlin,Graph,Graph Databases,Titan,Gremlin,我在Cassandra上使用TITAN 0.4,在我的例子中,我已经为我的密钥ip_地址编制了索引,但为了性能和可伸缩性,它是非唯一的。 现在的挑战是图形允许复制顶点。 我正在运行一个后台任务,通过遍历所有顶点来清理图中的重复顶点。 识别图中重复顶点的最佳方法是什么。 生产中图形的估计大小约为10M~15M顶点,甚至更大。 TITAN index中是否有任何功能可以帮助轻松识别副本? 提前谢谢 索引创建小精灵脚本 g.makeKey("ip_address").dataType(String.c

我在Cassandra上使用TITAN 0.4,在我的例子中,我已经为我的密钥ip_地址编制了索引,但为了性能和可伸缩性,它是非唯一的。 现在的挑战是图形允许复制顶点。 我正在运行一个后台任务,通过遍历所有顶点来清理图中的重复顶点。 识别图中重复顶点的最佳方法是什么。 生产中图形的估计大小约为10M~15M顶点,甚至更大。 TITAN index中是否有任何功能可以帮助轻松识别副本? 提前谢谢

索引创建小精灵脚本

g.makeKey("ip_address").dataType(String.class).indexed("standard",Vertex.class).make();

我将从Titan/Hadoop的工作开始:

g.V().ip_address.groupCount()
然后使用计数大于1的IP地址在OLTP模式下清理/合并重复的顶点