Sockets 创建数据集<;世界其他地区>;从从套接字读取创建的数据集(Spark Java)

Sockets 创建数据集<;世界其他地区>;从从套接字读取创建的数据集(Spark Java),sockets,apache-spark,streaming,Sockets,Apache Spark,Streaming,在Spark Streaming中,当输入源是csv文件并且我通过套接字(Java)读取它时,将创建一个数据集,其中只包含一个字符串列,并且每行的值包含通过套接字发送的每一行 当我知道每一行的格式时,例如csv行的前两个值是字符串下一个值是整数等等,是否可以声明我的模式并基于该模式创建另一个数据集,并相应地放置数据 提前谢谢。首先,如果是csv,我认为使用spark streaming没有任何意义。这将是他的理论数据,数据没有变化。因此,您应该只使用spark sql来读取和处理csv 您可以通

在Spark Streaming中,当输入源是csv文件并且我通过套接字(Java)读取它时,将创建一个
数据集
,其中只包含一个
字符串
列,并且每行的值包含通过套接字发送的每一行

当我知道每一行的格式时,例如csv行的前两个值是
字符串
下一个值是
整数
等等,是否可以声明我的模式并基于该模式创建另一个
数据集
,并相应地放置数据


提前谢谢。

首先,如果是csv,我认为使用spark streaming没有任何意义。这将是他的理论数据,数据没有变化。因此,您应该只使用spark sql来读取和处理csv


您可以通过装箱StructField和Decare数据类型来创建模式。

这适用于生产环境。但是,流媒体教程通常通过使用一些静态文件来简化。像这样学习api比较容易。你是对的,但我想把它实现为一个项目,这是为了学习。所以我想知道我的要求是否可行。