Python列表//Pyspark

Python列表//Pyspark,python,list,pyspark,bigdata,rdd,Python,List,Pyspark,Bigdata,Rdd,输入: 如何获得上述输入的以下输出 预期产出: [['A', 'V1'], ['A', 'V2'], ['B', 'V6'], ['B', 'V7']] 其他信息: 我正在学习Pypark和 listA = ['V1', 'V2'], listB = ['V6', 'V7'] 这就是我现在的处境。我试图在不使用join函数的情况下实现join X和Y是我想要加入的密钥。A和B是不同的文件源 我预期的最终结果是: [('X', [['A', 'V1'], ['A', 'V2'], ['B',

输入:

如何获得上述输入的以下输出

预期产出:

[['A', 'V1'], ['A', 'V2'], ['B', 'V6'], ['B', 'V7']]
其他信息:

我正在学习Pypark和

listA = ['V1', 'V2'],  listB = ['V6', 'V7']
这就是我现在的处境。我试图在不使用join函数的情况下实现join

X和Y是我想要加入的密钥。A和B是不同的文件源

我预期的最终结果是:

[('X', [['A', 'V1'], ['A', 'V2'], ['B', 'V6'], ['B', 'V7']]),
 ('Y', [['A', 'V3'], ['A', 'V4'], ['B', 'V8']])]

不是很复杂,但类似于这些句子可能会帮助您:

(X, ['V1', 'V6'])
(X, ['V1', 'V7'])
(X, ['V2', 'V6'])
(X, ['V2', 'V7'])
(Y, ['V3', 'V8'])
(Y, ['V4', 'V8'])

1.在Python列表或Pyspark中实现这一点的问题是什么?2.A和B是不同的源文件,这是什么意思?在你提供的例子中,他们看起来像字符串。3.从预期输出中,您将查找A和B.4中的所有值组合。我试图在不使用join函数的情况下实现join,但它与您的输出不一致,这不是join。我真的迷路了!您是否在Pyspark中实现此功能?它们看起来像是RDD上的一些操作。。无法理解您对联接输出的期望。我迷路了。
list = [['A', 'V1'], ['A', 'V2'], ['B', 'V6'], ['B', 'V7']]

list_a = []
list_b = []
for i in list:
    first, second = i
    if first == 'A':
        list_a.append(second)
    elif first == 'B':
        list_b.append(second)

print("list_a: ", list_a)
print("list_b: ", list_b)