Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何在PySpark中按包含文本和数字的制表符和行拆分rdd元素_Apache Spark_Pyspark_Rdd - Fatal编程技术网

Apache spark 如何在PySpark中按包含文本和数字的制表符和行拆分rdd元素

Apache spark 如何在PySpark中按包含文本和数字的制表符和行拆分rdd元素,apache-spark,pyspark,rdd,Apache Spark,Pyspark,Rdd,我有一个文本文件,如下所示 87687 564 A eats apple 10 76577 324 B plays Ball 7 54325 654 C has Cat 9 我想要rdd.take(10) 我尝试了以下代码 rdd=mydata.map(lambda mydata: mydata.split("\t")) rdd.take(10) 我得到了这个 [['87687', '564', 'A eats apple', '10'],

我有一个文本文件,如下所示

87687   564    A eats apple   10
76577   324    B plays Ball   7 
54325   654    C has Cat      9
我想要
rdd.take(10)

我尝试了以下代码

rdd=mydata.map(lambda mydata: mydata.split("\t"))
rdd.take(10)
我得到了这个

[['87687', '564', 'A eats apple', '10'],
['76577', '324', 'B plays Ball', '7'], 
['54325', '654', 'C has Cat', '9']]

如何去掉逗号和额外的括号。我是通过“如何在pyspark中将列表列表转换为多个列表”进行搜索的,但我认为这很可能不是正确的问题。正在努力学习火花,请帮忙

显示正确,rdd中有3个元素,是运算符
take()
将元素转换为列表,以行和列的形式显示,将rdd转换为数据帧,实际上可以获得正确的输出。如果一个变量中没有列表列表,则无法将多个列表存储在一个变量中,对吗?@Tanzin,RDD中没有逗号和括号,它们仅在输出控制台中打印/显示时出现。。阅读/尝试更多Spark,此qn需要修改
[['87687', '564', 'A eats apple', '10'],
['76577', '324', 'B plays Ball', '7'], 
['54325', '654', 'C has Cat', '9']]