当UDF详细信息为JSON格式时,如何在PySpark中应用UDF
我正在开发一个特性,其中任何数据帧列上的转换都存储到数据库表中,并带有所需的详细信息。比如说,当UDF详细信息为JSON格式时,如何在PySpark中应用UDF,pyspark,user-defined-functions,Pyspark,User Defined Functions,我正在开发一个特性,其中任何数据帧列上的转换都存储到数据库表中,并带有所需的详细信息。比如说, [ { "column":"column_name_1", "apply_rules":["UDF_function_name_1", "UDF_function_name_4"] "output_data_type":"str" }, {
[
{
"column":"column_name_1",
"apply_rules":["UDF_function_name_1", "UDF_function_name_4"]
"output_data_type":"str"
},
{
"column":"column_name_2",
"apply_rules":"UDF_function_name_2"
"output_data_type":"int"
},
{
"column":"column_name_3",
"apply_rules":"UDF_function_name_3"
"output_data_type":"bool"
}
]
这些UDF在单独的Python文件中定义。我知道Java中的反射API,但我是Python的新手。现在,如何将这些UDF字符串转换为函数并应用于dataframe列