使用spark流将非结构化数据持久化到hadoop
我有一个使用spark streaming创建的摄取管道,我想在hadoop中将RDD存储为一个大型非结构化(JSONL)数据文件,以简化未来的分析使用spark流将非结构化数据持久化到hadoop,hadoop,apache-spark,hdfs,spark-streaming,Hadoop,Apache Spark,Hdfs,Spark Streaming,我有一个使用spark streaming创建的摄取管道,我想在hadoop中将RDD存储为一个大型非结构化(JSONL)数据文件,以简化未来的分析 将astream持久化到hadoop而不产生大量小文件的最佳方法是什么?(因为hadoop不适合这些,它们会使分析工作流程复杂化)首先,我建议使用一个持久层,可以像Cassandra一样处理这个问题。但是,如果您在HDFS上处于死机状态,那么 您可以使用FileUtil.copyMerge(来自hadoop fs)API并指定保存零件文本文件的文件
将astream持久化到hadoop而不产生大量小文件的最佳方法是什么?(因为hadoop不适合这些,它们会使分析工作流程复杂化)首先,我建议使用一个持久层,可以像Cassandra一样处理这个问题。但是,如果您在HDFS上处于死机状态,那么 您可以使用
FileUtil.copyMerge
(来自hadoop fs)API并指定保存零件文本文件的文件夹路径。
假设您的目录是/a/b/c/use
FileUtil.copyMerge(FileSystem of source, a/b/c,
FileSystem of destination, Path to the merged file say (a/b/c.txt),
true(to delete the original dir,null))