Apache spark 在pyspark中查找并删除匹配的列值_Apache Spark_Pyspark_Spark Dataframe_Pyspark Sql

Apache spark 在pyspark中查找并删除匹配的列值

apache-spark pyspark

Apache spark 在pyspark中查找并删除匹配的列值,apache-spark,pyspark,spark-dataframe,pyspark-sql,Apache Spark,Pyspark,Spark Dataframe,Pyspark Sql,我有一个pyspark数据框，其中的列偶尔会有一个与另一列匹配的错误值。它看起来像这样： | Date | Latitude | | 2017-01-01 | 43.4553 | | 2017-01-02 | 42.9399 | | 2017-01-03 | 43.0091 | | 2017-01-04 | 2017-01-04 | 显然，最后一个纬度值不正确。我需要删除所有像这样的行。我曾想过使用.isin（

我有一个pyspark数据框，其中的列偶尔会有一个与另一列匹配的错误值。它看起来像这样：

| Date         | Latitude      |
| 2017-01-01   | 43.4553       |
| 2017-01-02   | 42.9399       |
| 2017-01-03   | 43.0091       |
| 2017-01-04   | 2017-01-04    |

显然，最后一个纬度值不正确。我需要删除所有像这样的行。我曾想过使用

.isin（）

，但我似乎无法让它发挥作用。如果我尝试

df['Date'].isin(['Latitude'])

我得到：

Column<(Date IN (Latitude))>

列

有什么建议吗？

如果您更熟悉SQL语法，这里有一种替代方法，在

过滤器（）中使用pyspark SQL
条件：
df=df.filter（“日期不在（纬度）”）

或等效使用：
df=df.where（“日期不在（纬度）”）