Apache spark 在pyspark中查找并删除匹配的列值

Apache spark 在pyspark中查找并删除匹配的列值,apache-spark,pyspark,spark-dataframe,pyspark-sql,Apache Spark,Pyspark,Spark Dataframe,Pyspark Sql,我有一个pyspark数据框,其中的列偶尔会有一个与另一列匹配的错误值。它看起来像这样: | Date | Latitude | | 2017-01-01 | 43.4553 | | 2017-01-02 | 42.9399 | | 2017-01-03 | 43.0091 | | 2017-01-04 | 2017-01-04 | 显然,最后一个纬度值不正确。我需要删除所有像这样的行。我曾想过使用.isin(

我有一个pyspark数据框,其中的列偶尔会有一个与另一列匹配的错误值。它看起来像这样:

| Date         | Latitude      |
| 2017-01-01   | 43.4553       |
| 2017-01-02   | 42.9399       |
| 2017-01-03   | 43.0091       |
| 2017-01-04   | 2017-01-04    |
显然,最后一个纬度值不正确。我需要删除所有像这样的行。我曾想过使用
.isin()
,但我似乎无法让它发挥作用。如果我尝试

df['Date'].isin(['Latitude'])
我得到:

Column<(Date IN (Latitude))>

有什么建议吗?

如果您更熟悉SQL语法,这里有一种替代方法,在
过滤器()中使用
pyspark SQL
条件:

df=df.filter(“日期不在(纬度)”)
或等效使用:

df=df.where(“日期不在(纬度)”)