Hadoop 来自文件夹的Apache Spark流媒体(非HDFS)

Hadoop 来自文件夹的Apache Spark流媒体(非HDFS),hadoop,apache-spark,spark-streaming,Hadoop,Apache Spark,Spark Streaming,我想知道是否有可靠的方法从物理位置创建火花流?我使用的是“textFileStream”,但它似乎主要用于HDFS中的文件。如果您看到函数的定义,它说“创建一个监视Hadoop兼容文件系统的输入流”您是在暗示HDFS不是一个物理位置吗?存在实际存在的datanode目录 您应该能够将textFile与文件://URI一起使用,但是您需要确保集群中的所有节点都可以从该位置读取 从Hadoop兼容文件系统的定义 选择使用哪个文件系统来自用于引用它的URI方案——前缀hdfs:on any file

我想知道是否有可靠的方法从物理位置创建火花流?我使用的是“textFileStream”,但它似乎主要用于HDFS中的文件。如果您看到函数的定义,它说“创建一个监视Hadoop兼容文件系统的输入流”

您是在暗示HDFS不是一个物理位置吗?存在实际存在的datanode目录

您应该能够将textFile与
文件://
URI一起使用,但是您需要确保集群中的所有节点都可以从该位置读取

从Hadoop兼容文件系统的定义

选择使用哪个文件系统来自用于引用它的URI方案——前缀hdfs:on any file path意味着它引用一个hdfs文件系统;文件:到本地文件系统,s3:到AmazonS3,ftp:ftp,swift:OpenStackSwift等等

还有其他文件系统通过相关的javajar文件、本机二进制文件和向Hadoop添加新模式所需的配置参数提供与Hadoop的显式集成


您是否暗示HDFS不是一个物理位置?存在实际存在的datanode目录

您应该能够将textFile与
文件://
URI一起使用,但是您需要确保集群中的所有节点都可以从该位置读取

从Hadoop兼容文件系统的定义

选择使用哪个文件系统来自用于引用它的URI方案——前缀hdfs:on any file path意味着它引用一个hdfs文件系统;文件:到本地文件系统,s3:到AmazonS3,ftp:ftp,swift:OpenStackSwift等等

还有其他文件系统通过相关的javajar文件、本机二进制文件和向Hadoop添加新模式所需的配置参数提供与Hadoop的显式集成


抱歉,我指的是UNIX/WINDOWS文件系统的物理位置。我试图在WINDOWS中使用本地内核复制它,但似乎存在一些问题,即它只能在您更改文件时读取,然后在spark作业运行时移动文件。是的,spark streaming文档说“必须通过将文件自动移动或重命名到数据目录中,在dataDirectory中创建这些文件“。也就是说,不读取现有文件。附加到文件将不起作用work@Satyabrat这回答了您的问题吗?抱歉,我指的是UNIX/WINDOWS文件系统的物理位置。我试图在WINDOWS中使用本地内核复制它,但似乎存在一些问题,即它只能在您更改文件时读取,然后在spark作业运行时移动文件。是的,Spark streaming文档称“必须通过将文件自动移动或重命名到数据目录中,在dataDirectory中创建文件”。也就是说,不读取现有文件。附加到文件将不起作用work@Satyabrat这回答了你的问题吗?