Java 做一个；“在哪里？”；子句，如何仅重新训练第一个数据集的列？_Java_Apache Spark_Apache Spark Sql

Java 做一个；“在哪里？”；子句，如何仅重新训练第一个数据集的列？

java apache-spark

Java 做一个；“在哪里？”；子句，如何仅重新训练第一个数据集的列？,java,apache-spark,apache-spark-sql,Java,Apache Spark,Apache Spark Sql,我做得对吗我只想保留与公社中提到的城市相关的mobilite数据我模拟了其中。。。在…子句中加入一个join：这是最好的方法吗 Dataset mobilite=this.mobilitedominciletravaldataset .dsRowFluxDomicileTravailPlusDe15ansAvecEmploi（本次会议，2017年）；数据集社区=社区（2018年）； mobilite=mobilite .加入（社区）， commons.col（“codeCommune”）.

我做得对吗

我只想保留与

公社中提到的城市相关的mobilite
数据

我模拟了其中。。。在…
子句中加入一个join
：这是最好的方法吗
Dataset mobilite=this.mobilitedominciletravaldataset
.dsRowFluxDomicileTravailPlusDe15ansAvecEmploi（本次会议，2017年）；
数据集社区=社区（2018年）；
mobilite=mobilite
.加入（社区），
commons.col（“codeCommune”）.equalTo（col（“code\u commune\u origine”），“内部”）
.selectExpr（“mobilite.*）；

在join
操作之后获取的mobilite
数据集中有communies
列。这很正常。但我对它们不感兴趣。然而，我写的东西不起作用，导致了一个错误
如何快速丢弃它们？

要实现我的目标，最快的代码是什么？
使用leftsemi
join:
mobilite = mobilite
  .join(communes, 
        communes.col("codeCommune").equalTo(col("code_commune_origine")), "leftsemi")
  .selectExpr("mobilite.*");