Apache spark 如何在PySpark中按包含文本和数字的制表符和行拆分rdd元素
我有一个文本文件,如下所示Apache spark 如何在PySpark中按包含文本和数字的制表符和行拆分rdd元素,apache-spark,pyspark,rdd,Apache Spark,Pyspark,Rdd,我有一个文本文件,如下所示 87687 564 A eats apple 10 76577 324 B plays Ball 7 54325 654 C has Cat 9 我想要rdd.take(10) 我尝试了以下代码 rdd=mydata.map(lambda mydata: mydata.split("\t")) rdd.take(10) 我得到了这个 [['87687', '564', 'A eats apple', '10'],
87687 564 A eats apple 10
76577 324 B plays Ball 7
54325 654 C has Cat 9
我想要rdd.take(10)
我尝试了以下代码
rdd=mydata.map(lambda mydata: mydata.split("\t"))
rdd.take(10)
我得到了这个
[['87687', '564', 'A eats apple', '10'],
['76577', '324', 'B plays Ball', '7'],
['54325', '654', 'C has Cat', '9']]
如何去掉逗号和额外的括号。我是通过“如何在pyspark中将列表列表转换为多个列表”进行搜索的,但我认为这很可能不是正确的问题。正在努力学习火花,请帮忙 显示正确,rdd中有3个元素,是运算符
take()
将元素转换为列表,以行和列的形式显示,将rdd转换为数据帧,实际上可以获得正确的输出。如果一个变量中没有列表列表,则无法将多个列表存储在一个变量中,对吗?@Tanzin,RDD中没有逗号和括号,它们仅在输出控制台中打印/显示时出现。。阅读/尝试更多Spark,此qn需要修改
[['87687', '564', 'A eats apple', '10'],
['76577', '324', 'B plays Ball', '7'],
['54325', '654', 'C has Cat', '9']]