Python 将pyspark数据帧写入Postgres，但不将列标记为NOTNULL_Python_Postgresql_Pyspark_Apache Spark Sql

Python 将pyspark数据帧写入Postgres，但不将列标记为NOTNULL

python postgresql pyspark

Python 将pyspark数据帧写入Postgres，但不将列标记为NOTNULL,python,postgresql,pyspark,apache-spark-sql,Python,Postgresql,Pyspark,Apache Spark Sql,我正在使用python中的以下代码为Postgres编写数据帧： df.write.format('jdbc') \ .mode('append') \ .option('url', url) \ .option('dbtable', tn) \ .option('user', un) \ .option('password', pwd)

我正在使用python中的以下代码为Postgres编写数据帧：

df.write.format('jdbc') \
                .mode('append') \
                .option('url', url) \
                .option('dbtable', tn) \
                .option('user', un) \
                .option('password', pwd) \
                .option('driver', driver) \
                .save()

代码将创建一个新表并按预期插入数据。问题在于，在Postgres中，列被标记为

notnull

。有没有办法使它们不为

非null

？

作为基线，这应该从Spark数据帧继承。您可以使用

df.printSchema（）

检查可空性

关于Postgres中列的可空性，我认为您需要在Postgres中的表创建（如果写入现有表）或Spark JDBC选项和属性中指定这一点。这样，您可以在属性中设置自定义模式，例如

# Specifying create table column data types on write
jdbcDF.write \
    .option("createTableColumnTypes", "name CHAR(64), comments VARCHAR(1024)") \
    .jdbc("jdbc:postgresql:dbserver", "schema.tablename",
          properties={"user": "username", "password": "password"})

在这里，您可以指定（如果JDBC允许的话）可空性，例如

option("createTableColumnTypes", "name CHAR(64) default null")

或者，使用

createSchema

选项（不确定这是否适用于现有表，请查看

append

选项）-查看中的所有选项

或者，在Postgres中提前显式创建具有特定架构（及其可空性）的表。

在数据帧末尾添加一行空值，然后将其删除？可以使用备选方案2-修改架构

StructField（，True）