如果pyspark中两列中的任何一列中的行具有相同的值,如何为数据帧创建唯一ID

如果pyspark中两列中的任何一列中的行具有相同的值,如何为数据帧创建唯一ID,pyspark,Pyspark,我做这个练习是为了匹配潜在的相关记录 我有一个数据框,如下所示: 名称 电话号码 约翰 12345 约翰 无效的 无效的 12345 约翰 23456 罗恩 23456 公鸭 34567 公鸭 45678 你的问题还不清楚,如果号码和电话号码匹配到不同的组,比如说德雷克,12345,你会怎么想?@Rafa那么约翰和德雷克将拥有相同的Id,因为他们拥有相同的电话号码,因此是相关的记录。我已经在上面与约翰和罗恩强调了这个案例。其思想是将具有相同电话号码或名称的记录分组在相同Id下。

我做这个练习是为了匹配潜在的相关记录

我有一个数据框,如下所示:

名称 电话号码 约翰 12345 约翰 无效的 无效的 12345 约翰 23456 罗恩 23456 公鸭 34567 公鸭 45678
你的问题还不清楚,如果号码和电话号码匹配到不同的组,比如说德雷克,12345,你会怎么想?@Rafa那么约翰和德雷克将拥有相同的Id,因为他们拥有相同的电话号码,因此是相关的记录。我已经在上面与约翰和罗恩强调了这个案例。其思想是将具有相同电话号码或名称的记录分组在相同Id下。