Apache spark Spark:如何阅读&;写临时文件?
我需要编写一个使用临时文件的Spark应用程序 我需要下载许多大文件,用一些遗留代码读取它们,进行一些处理,删除文件,并将结果写入数据库 这些文件在S3上,下载需要很长时间。然而,我可以同时做很多事情,所以我想并行下载大量内容。旧代码从文件系统读取 我想我无法避免创建临时文件。Spark代码读取和写入本地文件的规则是什么 这一定是一个常见的问题,但我还没有找到任何线程或文档讨论它。谁能给我一个指针吗 非常感谢Apache spark Spark:如何阅读&;写临时文件?,apache-spark,streaming,spark-streaming,Apache Spark,Streaming,Spark Streaming,我需要编写一个使用临时文件的Spark应用程序 我需要下载许多大文件,用一些遗留代码读取它们,进行一些处理,删除文件,并将结果写入数据库 这些文件在S3上,下载需要很长时间。然而,我可以同时做很多事情,所以我想并行下载大量内容。旧代码从文件系统读取 我想我无法避免创建临时文件。Spark代码读取和写入本地文件的规则是什么 这一定是一个常见的问题,但我还没有找到任何线程或文档讨论它。谁能给我一个指针吗 非常感谢 P你想用Spark做什么?将它用作S3中的并行下载实用程序?是的,并行下载是我应用程序
P你想用Spark做什么?将它用作S3中的并行下载实用程序?是的,并行下载是我应用程序的第一步。好吧,这几乎不是Spark的用例。我想如果您NFS挂载一个目录,那么所有spark实例都可以写入该目录,但我还没有尝试,您可以发布您使用的解决方案吗?您在这里尝试使用spark做什么?将它用作S3中的并行下载实用程序?是的,并行下载是我应用程序的第一步。好吧,这几乎不是Spark的用例。我想,如果您NFS挂载一个目录,那么所有spark实例都可以写入该目录,但我还没有尝试,您可以发布您使用的解决方案吗?