Pyspark流构建历史数据_Pyspark_Spark Streaming

Pyspark流构建历史数据

pyspark

Pyspark流构建历史数据,pyspark,spark-streaming,Pyspark,Spark Streaming,我正在使用： from pyspark.streaming import StreamingContext ssc = StreamingContext(sc, 10) lines = ssc.socketTextStream("host", port) lines.saveAsTextFiles("path").f 我得到了很多保存的文件，我想用它们来创建模型，比如LogisticRegressionclassifier，DecisionTreeCla

我正在使用：

from pyspark.streaming import StreamingContext
ssc = StreamingContext(sc, 10)
lines = ssc.socketTextStream("host", port)
lines.saveAsTextFiles("path").f

我得到了很多保存的文件，我想用它们来创建模型，比如LogisticRegressionclassifier，DecisionTreeClassifier

我所做的是：

allfiles =  spark.read.option("header","false").csv("home/-*/part-*")
allfiles.coalesce(1).write.format("csv").option("header", "false").save("newPath")

然后我用了：

my_schema=tp.StructType([ tp.StructField（名称='id'，数据类型=tp.StringType（），nullable=True）， tp.StructField（name='tweet'，dataType=tp.StringType（），nullable=True）， tp.StructField（名称='label'，数据类型=tp.StringType（），nullable=True） ])

我的第一个问题是：这是处理流数据的正确方法吗（在加载的数据上创建模型，然后在实时流上使用它们？）我的第二个问题是：加载csv文件时得到的数据非常混乱。它包含损坏的数据。有没有办法在这个日期加载到我的目录之前更正它？或者我应该用其他方法来清洁它们吗

my_data = spark.read.csv("newfile.csv",
                         schema=my_schema,
                         header=True)