Pyspark流构建历史数据
我正在使用:Pyspark流构建历史数据,pyspark,spark-streaming,Pyspark,Spark Streaming,我正在使用: from pyspark.streaming import StreamingContext ssc = StreamingContext(sc, 10) lines = ssc.socketTextStream("host", port) lines.saveAsTextFiles("path").f 我得到了很多保存的文件,我想用它们来创建模型,比如LogisticRegressionclassifier,DecisionTreeCla
from pyspark.streaming import StreamingContext
ssc = StreamingContext(sc, 10)
lines = ssc.socketTextStream("host", port)
lines.saveAsTextFiles("path").f
我得到了很多保存的文件,我想用它们来创建模型,比如LogisticRegressionclassifier,DecisionTreeClassifier
我所做的是:
allfiles = spark.read.option("header","false").csv("home/-*/part-*")
allfiles.coalesce(1).write.format("csv").option("header", "false").save("newPath")
然后我用了:
my_schema=tp.StructType([
tp.StructField(名称='id',数据类型=tp.StringType(),nullable=True),
tp.StructField(name='tweet',dataType=tp.StringType(),nullable=True),
tp.StructField(名称='label',数据类型=tp.StringType(),nullable=True)
])
我的第一个问题是:这是处理流数据的正确方法吗(在加载的数据上创建模型,然后在实时流上使用它们?)
我的第二个问题是:加载csv文件时得到的数据非常混乱。它包含损坏的数据。有没有办法在这个日期加载到我的目录之前更正它?或者我应该用其他方法来清洁它们吗
my_data = spark.read.csv("newfile.csv",
schema=my_schema,
header=True)