Java ApacheSpark:有没有一种方法可以在Spark中读取CSV文件并直接将其转换为Byte[]而不将文件保存在任何地方
我需要从远程位置读取apache spark中的CSV文件,并将其转换为Java ApacheSpark:有没有一种方法可以在Spark中读取CSV文件并直接将其转换为Byte[]而不将文件保存在任何地方,java,apache-spark,Java,Apache Spark,我需要从远程位置读取apache spark中的CSV文件,并将其转换为字节[],而无需将文件保存到本地磁盘 我可以将CSV文件加载到磁盘上并转换为字节流,但希望避免在磁盘上加载此步骤 以下是我当前的工作流程: 步骤1:读取CSV文件 Dataset-Dataset=sparkSession.read().option(“mergeSchema”、“false”).csv(“”) 步骤2:写入本地磁盘 dataset.coalesce(1.write().csv(“”) 步骤3:从步骤2的loc
字节[]
,而无需将文件保存到本地磁盘
我可以将CSV文件加载到磁盘上并转换为字节流,但希望避免在磁盘上加载此步骤
以下是我当前的工作流程:
步骤1:读取CSV文件
Dataset-Dataset=sparkSession.read().option(“mergeSchema”、“false”).csv(“”)代码>
步骤2:写入本地磁盘
dataset.coalesce(1.write().csv(“”)代码>
步骤3:从步骤2的localPath
读取文件后,将其转换为byte[]
我希望避免第2步,在第1步读取时将csv文件转换为字节数组本身
如果您在这方面有任何帮助,我们将不胜感激。Hi@NeerajKumar-您看过吗-提供您自己的ForEachWriter
?