Spark GraphX-如何从Spark中的JSON文件中读取数据并从数据中创建图形?

Spark GraphX-如何从Spark中的JSON文件中读取数据并从数据中创建图形?,graph,apache-spark,rdd,spark-graphx,property-graph,Graph,Apache Spark,Rdd,Spark Graphx,Property Graph,我是Spark和Scala的新手,我正在尝试从JSON文件中读取一组tweeter数据,并将其转换为一个图形,其中顶点表示一条tweet,边连接到tweet,而tweet是原始发布项目的重新tweet。 到目前为止,我已经成功地从JSON文件中读取并找出了RDD的模式。 现在我相信我需要从SchemaRDD对象中获取数据,并为顶点创建RDD,为边创建RDD。这是解决问题的方法还是有其他解决方案?非常感谢您的帮助和建议。这取决于您的json文件。您需要解析json文件中的数据,并根据解析的数据创建

我是Spark和Scala的新手,我正在尝试从JSON文件中读取一组tweeter数据,并将其转换为一个图形,其中顶点表示一条tweet,边连接到tweet,而tweet是原始发布项目的重新tweet。 到目前为止,我已经成功地从JSON文件中读取并找出了RDD的模式。
现在我相信我需要从SchemaRDD对象中获取数据,并为顶点创建RDD,为边创建RDD。这是解决问题的方法还是有其他解决方案?非常感谢您的帮助和建议。

这取决于您的json文件。您需要解析json文件中的数据,并根据解析的数据创建顶点和边。没有特定的方法来实现这一点,这实际上取决于程序员。一种方法是创建顶点数组和边数组(同样基于解析的数据)并并行化(创建VertexRDD和EdgeRDD),然后创建所需的图形。希望我能帮上忙。

这取决于您的json文件。您需要解析json文件中的数据,并根据解析的数据创建顶点和边。没有特定的方法来实现这一点,这实际上取决于程序员。一种方法是创建顶点数组和边数组(同样基于解析的数据)并并行化(创建VertexRDD和EdgeRDD),然后创建所需的图形。希望我能帮上忙。

但阵列不是一个可以容纳大数据的RDD。如果我错了,请纠正我,我不认为我可以创建一个数组,比如说一百万行,对吗?如果是这样,那么阵列可能无法处理大数据。是的,这是正确的。不幸的是,您不能向RDD添加新元素。一种方法是,如果你不等待填充数组,而是每n次添加并行化一次,然后将已经并行化的RDD与新的RDD合并。但数组不是一个可以容纳大数据的RDD。如果我错了,请纠正我,我不认为我可以创建一个数组,比如说一百万行,对吗?如果是这样,那么阵列可能无法处理大数据。是的,这是正确的。不幸的是,您不能向RDD添加新元素。但是,一种方法是,如果您不等待填充数组,而是每n次添加并行化一次,然后将已经并行化的RDD与新的RDD合并。