Python 将pyspark数据帧写入Postgres,但不将列标记为NOTNULL

Python 将pyspark数据帧写入Postgres,但不将列标记为NOTNULL,python,postgresql,pyspark,apache-spark-sql,Python,Postgresql,Pyspark,Apache Spark Sql,我正在使用python中的以下代码为Postgres编写数据帧: df.write.format('jdbc') \ .mode('append') \ .option('url', url) \ .option('dbtable', tn) \ .option('user', un) \ .option('password', pwd)

我正在使用python中的以下代码为Postgres编写数据帧:

df.write.format('jdbc') \
                .mode('append') \
                .option('url', url) \
                .option('dbtable', tn) \
                .option('user', un) \
                .option('password', pwd) \
                .option('driver', driver) \
                .save()

代码将创建一个新表并按预期插入数据。问题在于,在Postgres中,列被标记为
notnull
。有没有办法使它们不为
非null

作为基线,这应该从Spark数据帧继承。您可以使用
df.printSchema()
检查可空性

关于Postgres中列的可空性,我认为您需要在Postgres中的表创建(如果写入现有表)或Spark JDBC选项和属性中指定这一点。这样,您可以在属性中设置自定义模式,例如

# Specifying create table column data types on write
jdbcDF.write \
    .option("createTableColumnTypes", "name CHAR(64), comments VARCHAR(1024)") \
    .jdbc("jdbc:postgresql:dbserver", "schema.tablename",
          properties={"user": "username", "password": "password"})
在这里,您可以指定(如果JDBC允许的话)可空性,例如

option("createTableColumnTypes", "name CHAR(64) default null")
或者,使用
createSchema
选项(不确定这是否适用于现有表,请查看
append
选项)-查看中的所有选项


或者,在Postgres中提前显式创建具有特定架构(及其可空性)的表。

在数据帧末尾添加一行空值,然后将其删除?可以使用备选方案2-修改架构
StructField(,True)