Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用spark流将非结构化数据持久化到hadoop_Hadoop_Apache Spark_Hdfs_Spark Streaming - Fatal编程技术网

使用spark流将非结构化数据持久化到hadoop

使用spark流将非结构化数据持久化到hadoop,hadoop,apache-spark,hdfs,spark-streaming,Hadoop,Apache Spark,Hdfs,Spark Streaming,我有一个使用spark streaming创建的摄取管道,我想在hadoop中将RDD存储为一个大型非结构化(JSONL)数据文件,以简化未来的分析 将astream持久化到hadoop而不产生大量小文件的最佳方法是什么?(因为hadoop不适合这些,它们会使分析工作流程复杂化)首先,我建议使用一个持久层,可以像Cassandra一样处理这个问题。但是,如果您在HDFS上处于死机状态,那么 您可以使用FileUtil.copyMerge(来自hadoop fs)API并指定保存零件文本文件的文件

我有一个使用spark streaming创建的摄取管道,我想在hadoop中将RDD存储为一个大型非结构化(JSONL)数据文件,以简化未来的分析


将astream持久化到hadoop而不产生大量小文件的最佳方法是什么?(因为hadoop不适合这些,它们会使分析工作流程复杂化)

首先,我建议使用一个持久层,可以像Cassandra一样处理这个问题。但是,如果您在HDFS上处于死机状态,那么

您可以使用
FileUtil.copyMerge
(来自hadoop fs)API并指定保存零件文本文件的文件夹路径。 假设您的目录是/a/b/c/use

FileUtil.copyMerge(FileSystem of source, a/b/c, 
    FileSystem of destination, Path to the merged file say (a/b/c.txt), 
    true(to delete the original dir,null))