Python 如何合并spark databricks中的行_Python_Sql_Apache Spark_Databricks

Python 如何合并spark databricks中的行

python sql apache-spark

Python 如何合并spark databricks中的行,python,sql,apache-spark,databricks,Python,Sql,Apache Spark,Databricks,我正试图在Spark中合并行数据集包含年份行、邮政编码行、HPI_（以_2000_为基础）行等。我选择了三个邮政编码以及它们的HPI_信息（以_2000_为基础）。我想做的是将这些行（三个邮政编码及其HPI_和基于_2000_的）和2000年后的年份合并当我像这样打字时，它起作用了： df6 = spark.sql("select ZipCode,Year, HPI_with_2000_base from df1 where ZipCode = 94122 or ZipCode = 1058

我正试图在Spark中合并行

数据集包含年份行、邮政编码行、HPI_（以_2000_为基础）行等。我选择了三个邮政编码以及它们的HPI_信息（以_2000_为基础）。我想做的是将这些行（三个邮政编码及其HPI_和基于_2000_的）和2000年后的年份合并

当我像这样打字时，它起作用了：

df6 = spark.sql("select ZipCode,Year, HPI_with_2000_base from df1 where ZipCode = 94122 or ZipCode = 10583 or ZipCode = 91411")

结果数据帧：

+-------+----+------------------+
|ZipCode|Year|HPI_with_2000_base|
+-------+----+------------------+
|  10583|1976|             16.66|
|  10583|1977|             16.81|
|  10583|1978|             18.37|
|  10583|1979|             23.06|
|  10583|1980|             24.37|
|  10583|1981|             30.82|
|  10583|1982|             32.46|
|  10583|1983|             35.25|
|  10583|1984|             42.15|
|  10583|1985|             48.94|
|  10583|1986|             57.22|
|  10583|1987|             66.24|
|  10583|1988|             76.98|
|  10583|1989|             77.28|
|  10583|1990|             74.44|
|  10583|1991|             69.85|
|  10583|1992|             70.86|
|  10583|1993|             70.98|
|  10583|1994|             71.39|
|  10583|1995|             71.27|
+-------+----+------------------+
only showing top 20 rows

但是，当我这样键入时，它失败了：

df6 = spark.sql("select ZipCode,Year, HPI_with_2000_base from df1 where ZipCode = 94122 or ZipCode = 10583 or ZipCode = 91411" or Year >= '2000'").show()

你能告诉我该怎么做才能得到结果吗？

谢谢。

如果我正确理解了问题，您希望将条件

Year>=2000

添加到当前SQL语句中。您的

“

似乎有点放错位置，您需要将

ZipCode或ZipCode或ZipCode

部分用括号括起来。工作语句可以如下所示：

val df6 = spark.sql("""select ZipCode, Year, HPI_with_2000_base from df1 
                         where ZipCode IN(94122, 10583, 91411) and Year >= 2000""")

在查询中使用

where-ZIPCODE IN（941221058391411）

，使其更可读，更易于更改。