Apache spark 如何对pyspark数据块中的读取流数据应用自定义函数_Apache Spark_Pyspark_Databricks_Spark Structured Streaming_Azure Eventhub

Apache spark 如何对pyspark数据块中的读取流数据应用自定义函数

apache-spark pyspark

Apache spark 如何对pyspark数据块中的读取流数据应用自定义函数,apache-spark,pyspark,databricks,spark-structured-streaming,azure-eventhub,Apache Spark,Pyspark,Databricks,Spark Structured Streaming,Azure Eventhub,我有以下代码将事件中心数据读入数据块。问题: 在read_df数据帧中，我的主体是加密的json。我想应用一个用户定义的函数，该函数返回一个带有解码体值的datafarme。假设函数名为decode（编码的\体\值）。如何将其应用于读取的流数据，以便此操作也成为流。意味着当事件到达时，它应该触发解码并使用body的解码值创建数据帧。由于UDF在行级别工作，它也将使用流式数据帧。只要做： read_df.select(decode(col("value")).alias(&

我有以下代码将事件中心数据读入数据块。

问题:

在read_df数据帧中，我的主体是加密的json。我想应用一个用户定义的函数，该函数返回一个带有解码体值的datafarme。假设函数名为decode（编码的\体\值）。如何将其应用于读取的流数据，以便此操作也成为流。意味着当事件到达时，它应该触发解码并使用body的解码值创建数据帧。

由于UDF在行级别工作，它也将使用流式数据帧。只要做：

read_df.select(decode(col("value")).alias("decoded")