Python Jupyter笔记本Spark RDD拆分功能-卸下支架_Python_Apache Spark_Jupyter_Azure Notebooks

Python Jupyter笔记本Spark RDD拆分功能-卸下支架

python apache-spark

Python Jupyter笔记本Spark RDD拆分功能-卸下支架,python,apache-spark,jupyter,azure-notebooks,Python,Apache Spark,Jupyter,Azure Notebooks,我从上一个RDD中获取了一些列，然后想要拆分第二个元素。Spark将其包装在括号中。如何将它们放在一行中，取消它们的标记，从而移除支架？我花了大约10个小时来找到解决方案。。。需要在不使用dataframe的情况下完成。谢谢这是一个列表，因此您只需通过逐个拉动其元素来将其展平，假设大小始终为2： separatedRDD.map(lambda y: (y[0], y[1][0], y[1][1], y[2])).collect() 结果: [('2014-03-15:10:10:20',

我从上一个RDD中获取了一些列，然后想要拆分第二个元素。Spark将其包装在括号中。如何将它们放在一行中，取消它们的标记，从而移除支架？我花了大约10个小时来找到解决方案。。。需要在不使用dataframe的情况下完成。谢谢

这是一个列表，因此您只需通过逐个拉动其元素来将其展平，假设大小始终为2：

separatedRDD.map(lambda y: (y[0], y[1][0], y[1][1], y[2])).collect()

结果:

[('2014-03-15:10:10:20',
  'Sorrento',
  'F41L',
  '8cc3b47e-bd01-4482-b500-28f2342679af'),
 ('2014-03-15:10:10:20',
  'MeeToo',
  '1.0',
  'ef8c7564-0a1a-4650-a655-c8bbd5f8f943')]

[('2014-03-15:10:10:20',
  'Sorrento',
  'F41L',
  '8cc3b47e-bd01-4482-b500-28f2342679af'),
 ('2014-03-15:10:10:20',
  'MeeToo',
  '1.0',
  'ef8c7564-0a1a-4650-a655-c8bbd5f8f943')]