Apache spark 如何在Spark filter函数中收集或存储过滤掉的JSON
我想存储或收集过滤掉的数据,即无法通过hdfs或hbase验证的JSONApache spark 如何在Spark filter函数中收集或存储过滤掉的JSON,apache-spark,hbase,hdfs,spark-streaming,Apache Spark,Hbase,Hdfs,Spark Streaming,我想存储或收集过滤掉的数据,即无法通过hdfs或hbase验证的JSON dstream.filter { data => VitalValidator.isVitalJSONValid(data) } 其中,dstream是dstream[String],而isVitalJSONValid接受String并返回boolean我会用Scala做类似的事情 def isVitalJSONValid(数据:字符串):布尔={ var isValid=false //形成了一些验证 if(da
dstream.filter { data => VitalValidator.isVitalJSONValid(data) }
其中,dstream是dstream[String],而isVitalJSONValid接受String并返回boolean我会用Scala做类似的事情
def isVitalJSONValid(数据:字符串):布尔={
var isValid=false
//形成了一些验证
if(data.equals(“部分/验证”)){
isValid=true
}
!有效吗
}
//这是怎么回事
dstream.filter(数据=>isVitalJSONValid(数据)).saveAsHadoopFiles(“文件前缀”)
你读过吗?简单地说,我已经读过了,请告诉我这有什么问题?一行代码是不够的。请添加更多源代码,以便更好地分析其他源代码。感谢您的回复Srinivas,但您的代码仅在验证为真时收集数据。此外,我想进一步处理有效数据,并将无效数据存储/收集到hbase或hdfshere collect中。此处collect不起作用,因为它是数据流[String],请检查编辑。您可以根据需要更改
isVitalJSONValid
方法。