Pyspark流构建历史数据

Pyspark流构建历史数据,pyspark,spark-streaming,Pyspark,Spark Streaming,我正在使用: from pyspark.streaming import StreamingContext ssc = StreamingContext(sc, 10) lines = ssc.socketTextStream("host", port) lines.saveAsTextFiles("path").f 我得到了很多保存的文件,我想用它们来创建模型,比如LogisticRegressionclassifier,DecisionTreeCla

我正在使用:

from pyspark.streaming import StreamingContext
ssc = StreamingContext(sc, 10)
lines = ssc.socketTextStream("host", port)
lines.saveAsTextFiles("path").f
我得到了很多保存的文件,我想用它们来创建模型,比如LogisticRegressionclassifier,DecisionTreeClassifier

我所做的是:

allfiles =  spark.read.option("header","false").csv("home/-*/part-*")
allfiles.coalesce(1).write.format("csv").option("header", "false").save("newPath")
然后我用了:

my_schema=tp.StructType([ tp.StructField(名称='id',数据类型=tp.StringType(),nullable=True), tp.StructField(name='tweet',dataType=tp.StringType(),nullable=True), tp.StructField(名称='label',数据类型=tp.StringType(),nullable=True) ])

我的第一个问题是:这是处理流数据的正确方法吗(在加载的数据上创建模型,然后在实时流上使用它们?) 我的第二个问题是:加载csv文件时得到的数据非常混乱。它包含损坏的数据。有没有办法在这个日期加载到我的目录之前更正它?或者我应该用其他方法来清洁它们吗

my_data = spark.read.csv("newfile.csv",
                         schema=my_schema,
                         header=True)