Apache spark 在pyspark中查找并删除匹配的列值
我有一个pyspark数据框,其中的列偶尔会有一个与另一列匹配的错误值。它看起来像这样:Apache spark 在pyspark中查找并删除匹配的列值,apache-spark,pyspark,spark-dataframe,pyspark-sql,Apache Spark,Pyspark,Spark Dataframe,Pyspark Sql,我有一个pyspark数据框,其中的列偶尔会有一个与另一列匹配的错误值。它看起来像这样: | Date | Latitude | | 2017-01-01 | 43.4553 | | 2017-01-02 | 42.9399 | | 2017-01-03 | 43.0091 | | 2017-01-04 | 2017-01-04 | 显然,最后一个纬度值不正确。我需要删除所有像这样的行。我曾想过使用.isin(
| Date | Latitude |
| 2017-01-01 | 43.4553 |
| 2017-01-02 | 42.9399 |
| 2017-01-03 | 43.0091 |
| 2017-01-04 | 2017-01-04 |
显然,最后一个纬度值不正确。我需要删除所有像这样的行。我曾想过使用.isin()
,但我似乎无法让它发挥作用。如果我尝试
df['Date'].isin(['Latitude'])
我得到:
Column<(Date IN (Latitude))>
列
有什么建议吗?如果您更熟悉SQL语法,这里有一种替代方法,在
过滤器()中使用pyspark SQL
条件:
df=df.filter(“日期不在(纬度)”)
或等效使用:
df=df.where(“日期不在(纬度)”)