Java 做一个;“在哪里?”;子句,如何仅重新训练第一个数据集的列?
我做得对吗 我只想保留与Java 做一个;“在哪里?”;子句,如何仅重新训练第一个数据集的列?,java,apache-spark,apache-spark-sql,Java,Apache Spark,Apache Spark Sql,我做得对吗 我只想保留与公社中提到的城市相关的mobilite数据 我模拟了其中。。。在…子句中加入一个join:这是最好的方法吗 Dataset mobilite=this.mobilitedominciletravaldataset .dsRowFluxDomicileTravailPlusDe15ansAvecEmploi(本次会议,2017年); 数据集社区=社区(2018年); mobilite=mobilite .加入(社区), commons.col(“codeCommune”).
公社中提到的城市相关的mobilite
数据
我模拟了其中。。。在…
子句中加入一个join
:这是最好的方法吗
Dataset mobilite=this.mobilitedominciletravaldataset
.dsRowFluxDomicileTravailPlusDe15ansAvecEmploi(本次会议,2017年);
数据集社区=社区(2018年);
mobilite=mobilite
.加入(社区),
commons.col(“codeCommune”).equalTo(col(“code\u commune\u origine”),“内部”)
.selectExpr(“mobilite.*);
在join
操作之后获取的mobilite
数据集中有communies
列。这很正常。但我对它们不感兴趣。然而,我写的东西不起作用,导致了一个错误
如何快速丢弃它们?
要实现我的目标,最快的代码是什么?使用leftsemi
join:
mobilite = mobilite
.join(communes,
communes.col("codeCommune").equalTo(col("code_commune_origine")), "leftsemi")
.selectExpr("mobilite.*");