Apache spark 如何对pyspark数据块中的读取流数据应用自定义函数
我有以下代码将事件中心数据读入数据块。 问题:Apache spark 如何对pyspark数据块中的读取流数据应用自定义函数,apache-spark,pyspark,databricks,spark-structured-streaming,azure-eventhub,Apache Spark,Pyspark,Databricks,Spark Structured Streaming,Azure Eventhub,我有以下代码将事件中心数据读入数据块。 问题: 在read_df数据帧中,我的主体是加密的json。我想应用一个用户定义的函数,该函数返回一个带有解码体值的datafarme。假设函数名为decode(编码的\体\值)。如何将其应用于读取的流数据,以便此操作也成为流。意味着当事件到达时,它应该触发解码并使用body的解码值创建数据帧。由于UDF在行级别工作,它也将使用流式数据帧。只要做: read_df.select(decode(col("value")).alias(&
在read_df数据帧中,我的主体是加密的json。我想应用一个用户定义的函数,该函数返回一个带有解码体值的datafarme。假设函数名为decode(编码的\体\值)。如何将其应用于读取的流数据,以便此操作也成为流。意味着当事件到达时,它应该触发解码并使用body的解码值创建数据帧。由于UDF在行级别工作,它也将使用流式数据帧。只要做:
read_df.select(decode(col("value")).alias("decoded")