Hadoop 来自文件夹的Apache Spark流媒体（非HDFS）_Hadoop_Apache Spark_Spark Streaming

Hadoop 来自文件夹的Apache Spark流媒体（非HDFS）

hadoop apache-spark

Hadoop 来自文件夹的Apache Spark流媒体（非HDFS）,hadoop,apache-spark,spark-streaming,Hadoop,Apache Spark,Spark Streaming,我想知道是否有可靠的方法从物理位置创建火花流？我使用的是“textFileStream”，但它似乎主要用于HDFS中的文件。如果您看到函数的定义，它说“创建一个监视Hadoop兼容文件系统的输入流”您是在暗示HDFS不是一个物理位置吗？存在实际存在的datanode目录您应该能够将textFile与文件：//URI一起使用，但是您需要确保集群中的所有节点都可以从该位置读取从Hadoop兼容文件系统的定义选择使用哪个文件系统来自用于引用它的URI方案——前缀hdfs:on any file

我想知道是否有可靠的方法从物理位置创建火花流？我使用的是“textFileStream”，但它似乎主要用于HDFS中的文件。如果您看到函数的定义，它说“创建一个监视Hadoop兼容文件系统的输入流”

您是在暗示HDFS不是一个物理位置吗？存在实际存在的datanode目录

您应该能够将textFile与

文件：//

URI一起使用，但是您需要确保集群中的所有节点都可以从该位置读取

从Hadoop兼容文件系统的定义

选择使用哪个文件系统来自用于引用它的URI方案——前缀hdfs:on any file path意味着它引用一个hdfs文件系统；文件：到本地文件系统，s3：到AmazonS3，ftp:ftp，swift:OpenStackSwift等等

还有其他文件系统通过相关的javajar文件、本机二进制文件和向Hadoop添加新模式所需的配置参数提供与Hadoop的显式集成

您是否暗示HDFS不是一个物理位置？存在实际存在的datanode目录

您应该能够将textFile与

文件：//

URI一起使用，但是您需要确保集群中的所有节点都可以从该位置读取

从Hadoop兼容文件系统的定义

还有其他文件系统通过相关的javajar文件、本机二进制文件和向Hadoop添加新模式所需的配置参数提供与Hadoop的显式集成

抱歉，我指的是UNIX/WINDOWS文件系统的物理位置。我试图在WINDOWS中使用本地内核复制它，但似乎存在一些问题，即它只能在您更改文件时读取，然后在spark作业运行时移动文件。是的，spark streaming文档说“必须通过将文件自动移动或重命名到数据目录中，在dataDirectory中创建这些文件“。也就是说，不读取现有文件。附加到文件将不起作用work@Satyabrat这回答了您的问题吗？抱歉，我指的是UNIX/WINDOWS文件系统的物理位置。我试图在WINDOWS中使用本地内核复制它，但似乎存在一些问题，即它只能在您更改文件时读取，然后在spark作业运行时移动文件。是的，Spark streaming文档称“必须通过将文件自动移动或重命名到数据目录中，在dataDirectory中创建文件”。也就是说，不读取现有文件。附加到文件将不起作用work@Satyabrat这回答了你的问题吗？