使用spark流将非结构化数据持久化到hadoop_Hadoop_Apache Spark_Hdfs_Spark Streaming

使用spark流将非结构化数据持久化到hadoop

hadoop apache-spark

使用spark流将非结构化数据持久化到hadoop,hadoop,apache-spark,hdfs,spark-streaming,Hadoop,Apache Spark,Hdfs,Spark Streaming,我有一个使用spark streaming创建的摄取管道，我想在hadoop中将RDD存储为一个大型非结构化（JSONL）数据文件，以简化未来的分析将astream持久化到hadoop而不产生大量小文件的最佳方法是什么？（因为hadoop不适合这些，它们会使分析工作流程复杂化）首先，我建议使用一个持久层，可以像Cassandra一样处理这个问题。但是，如果您在HDFS上处于死机状态，那么您可以使用FileUtil.copyMerge（来自hadoop fs）API并指定保存零件文本文件的文件

我有一个使用spark streaming创建的摄取管道，我想在hadoop中将RDD存储为一个大型非结构化（JSONL）数据文件，以简化未来的分析

将astream持久化到hadoop而不产生大量小文件的最佳方法是什么？（因为hadoop不适合这些，它们会使分析工作流程复杂化）

首先，我建议使用一个持久层，可以像Cassandra一样处理这个问题。但是，如果您在HDFS上处于死机状态，那么

您可以使用

FileUtil.copyMerge

（来自hadoop fs）API并指定保存零件文本文件的文件夹路径。假设您的目录是/a/b/c/use

FileUtil.copyMerge(FileSystem of source, a/b/c, 
    FileSystem of destination, Path to the merged file say (a/b/c.txt), 
    true(to delete the original dir,null))