Python列表//Pyspark_Python_List_Pyspark_Bigdata_Rdd

Python列表//Pyspark

python list pyspark

Python列表//Pyspark,python,list,pyspark,bigdata,rdd,Python,List,Pyspark,Bigdata,Rdd,输入：如何获得上述输入的以下输出预期产出： [['A', 'V1'], ['A', 'V2'], ['B', 'V6'], ['B', 'V7']] 其他信息：我正在学习Pypark和 listA = ['V1', 'V2'], listB = ['V6', 'V7'] 这就是我现在的处境。我试图在不使用join函数的情况下实现join X和Y是我想要加入的密钥。A和B是不同的文件源我预期的最终结果是： [('X', [['A', 'V1'], ['A', 'V2'], ['B',

输入：

如何获得上述输入的以下输出

预期产出：

[['A', 'V1'], ['A', 'V2'], ['B', 'V6'], ['B', 'V7']]

其他信息：

我正在学习Pypark和

listA = ['V1', 'V2'],  listB = ['V6', 'V7']

这就是我现在的处境。我试图在不使用join函数的情况下实现join

X和Y是我想要加入的密钥。A和B是不同的文件源

我预期的最终结果是：

[('X', [['A', 'V1'], ['A', 'V2'], ['B', 'V6'], ['B', 'V7']]),
 ('Y', [['A', 'V3'], ['A', 'V4'], ['B', 'V8']])]

不是很复杂，但类似于这些句子可能会帮助您：

(X, ['V1', 'V6'])
(X, ['V1', 'V7'])
(X, ['V2', 'V6'])
(X, ['V2', 'V7'])
(Y, ['V3', 'V8'])
(Y, ['V4', 'V8'])

1.在Python列表或Pyspark中实现这一点的问题是什么？2.A和B是不同的源文件，这是什么意思？在你提供的例子中，他们看起来像字符串。3.从预期输出中，您将查找A和B.4中的所有值组合。我试图在不使用join函数的情况下实现join，但它与您的输出不一致，这不是join。我真的迷路了！您是否在Pyspark中实现此功能？它们看起来像是RDD上的一些操作。。无法理解您对联接输出的期望。我迷路了。

list = [['A', 'V1'], ['A', 'V2'], ['B', 'V6'], ['B', 'V7']]

list_a = []
list_b = []
for i in list:
    first, second = i
    if first == 'A':
        list_a.append(second)
    elif first == 'B':
        list_b.append(second)

print("list_a: ", list_a)
print("list_b: ", list_b)