Python 将pyspark数据帧写入Postgres,但不将列标记为NOTNULL
我正在使用python中的以下代码为Postgres编写数据帧:Python 将pyspark数据帧写入Postgres,但不将列标记为NOTNULL,python,postgresql,pyspark,apache-spark-sql,Python,Postgresql,Pyspark,Apache Spark Sql,我正在使用python中的以下代码为Postgres编写数据帧: df.write.format('jdbc') \ .mode('append') \ .option('url', url) \ .option('dbtable', tn) \ .option('user', un) \ .option('password', pwd)
df.write.format('jdbc') \
.mode('append') \
.option('url', url) \
.option('dbtable', tn) \
.option('user', un) \
.option('password', pwd) \
.option('driver', driver) \
.save()
代码将创建一个新表并按预期插入数据。问题在于,在Postgres中,列被标记为
notnull
。有没有办法使它们不为非null
?作为基线,这应该从Spark数据帧继承。您可以使用df.printSchema()
检查可空性
关于Postgres中列的可空性,我认为您需要在Postgres中的表创建(如果写入现有表)或Spark JDBC选项和属性中指定这一点。这样,您可以在属性中设置自定义模式,例如
# Specifying create table column data types on write
jdbcDF.write \
.option("createTableColumnTypes", "name CHAR(64), comments VARCHAR(1024)") \
.jdbc("jdbc:postgresql:dbserver", "schema.tablename",
properties={"user": "username", "password": "password"})
在这里,您可以指定(如果JDBC允许的话)可空性,例如
option("createTableColumnTypes", "name CHAR(64) default null")
或者,使用createSchema
选项(不确定这是否适用于现有表,请查看append
选项)-查看中的所有选项
或者,在Postgres中提前显式创建具有特定架构(及其可空性)的表。在数据帧末尾添加一行空值,然后将其删除?可以使用备选方案2-修改架构
StructField(,True)