Apache spark 如何在PySpark中按包含文本和数字的制表符和行拆分rdd元素_Apache Spark_Pyspark_Rdd

Apache spark 如何在PySpark中按包含文本和数字的制表符和行拆分rdd元素

apache-spark pyspark

Apache spark 如何在PySpark中按包含文本和数字的制表符和行拆分rdd元素,apache-spark,pyspark,rdd,Apache Spark,Pyspark,Rdd,我有一个文本文件，如下所示 87687 564 A eats apple 10 76577 324 B plays Ball 7 54325 654 C has Cat 9 我想要rdd.take（10）我尝试了以下代码 rdd=mydata.map(lambda mydata: mydata.split("\t")) rdd.take(10) 我得到了这个 [['87687', '564', 'A eats apple', '10'],

我有一个文本文件，如下所示

87687   564    A eats apple   10
76577   324    B plays Ball   7 
54325   654    C has Cat      9

我想要

rdd.take（10）

我尝试了以下代码

rdd=mydata.map(lambda mydata: mydata.split("\t"))
rdd.take(10)

我得到了这个

[['87687', '564', 'A eats apple', '10'],
['76577', '324', 'B plays Ball', '7'], 
['54325', '654', 'C has Cat', '9']]

如何去掉逗号和额外的括号。我是通过“如何在pyspark中将列表列表转换为多个列表”进行搜索的，但我认为这很可能不是正确的问题。正在努力学习火花，请帮忙

显示正确，rdd中有3个元素，是运算符

take（）

将元素转换为列表，以行和列的形式显示，将rdd转换为数据帧，实际上可以获得正确的输出。如果一个变量中没有列表列表，则无法将多个列表存储在一个变量中，对吗？@Tanzin，RDD中没有逗号和括号，它们仅在输出控制台中打印/显示时出现。。阅读/尝试更多Spark，此qn需要修改

[['87687', '564', 'A eats apple', '10'],
['76577', '324', 'B plays Ball', '7'], 
['54325', '654', 'C has Cat', '9']]