执行自连接&;熊猫数据帧上的聚合&;Spark Scala,Python数据帧
连接两个数据帧 团队、队长、比赛ID执行自连接&;熊猫数据帧上的聚合&;Spark Scala,Python数据帧,python,pandas,scala,apache-spark,pyspark,Python,Pandas,Scala,Apache Spark,Pyspark,连接两个数据帧 团队、队长、比赛ID A, Jack, 13 A, Jack, 14 A, Sam, 15 B, Nancy, 13 B, Rob, 14 B, Job, 15 团队、团队、比赛ID、比赛日期、获胜团队 A B 13 12011018 A A B 15 13011018 B 输出数据帧必须具
A, Jack, 13
A, Jack, 14
A, Sam, 15
B, Nancy, 13
B, Rob, 14
B, Job, 15
团队、团队、比赛ID、比赛日期、获胜团队
A B 13 12011018 A
A B 15 13011018 B
输出数据帧必须具有,
团队、团队、比赛ID、比赛日期、获胜团队,
以及6附加字段,WinRationalofTeam\u L,WinRationalofTeam\u R,
团队对团队的胜利,捕获的胜利,捕获的胜利,队长对团队的胜利
比方说
- WinRationOfTeam_LL队与任意一队打了15场比赛,赢了10场,那么A队的胜率是10/15
- WinRationOfCaptain\u LL队和“杰克?”由于队长与任何球队打了4场比赛,赢了1场,那么球队的胜率是1/4=0.25
- WinRationOfTeam\u L\u VS\u RA队与R队打了5场比赛,赢了3场,然后A队的胜率为3/4=0.75
- WinRatio_Captain_L_ON_RA队与队长杰克和队长罗布一起与B队比赛3场,赢了2场,然后WinRatio_Captain_ON_R=2/3=0.66