Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python RDD是否有trim()函数?_Python_Apache Spark_Pyspark_Rdd - Fatal编程技术网

Python RDD是否有trim()函数?

Python RDD是否有trim()函数?,python,apache-spark,pyspark,rdd,Python,Apache Spark,Pyspark,Rdd,要删除前导空格和尾随空格,我知道可以在数据帧上使用trim。使用RDD时是否有类似的功能?如果没有,你会怎么做 编辑:添加了一些代码: nonNullRDD = marchRDD.filter(lambda row: row.title).filter(lambda row: row.authors) titleRDD = nonNullRDD.map(lambda field: (field.title, field.authors)) splitRDD = titleRDD.flatMap

要删除前导空格和尾随空格,我知道可以在数据帧上使用trim。使用RDD时是否有类似的功能?如果没有,你会怎么做


编辑:添加了一些代码:

nonNullRDD = marchRDD.filter(lambda row: row.title).filter(lambda row: row.authors)
titleRDD = nonNullRDD.map(lambda field: (field.title, field.authors))
splitRDD = titleRDD.flatMap(lambda field: [(field[0], z) for z in field[1].split(";")])
authorRDD = splitRDD.map(lambda field: [field[1], 1])
test = authorRDD.flatMap(lambda word: word.strip())

RDD没有字符串函数

我相信您正在寻找Python
str.strip()


这是一个“列表对象没有属性条”错误。我已将代码添加到原始问题中。我理解这是因为我已经在所有映射中创建了一个列表,但是我该如何补救呢?您需要知道RDD包含什么类型的对象。我的回答假设您有一个字符串的RDD,而不是列表。请注意,由于某些原因,authordd的lambda有一个1。。。你可以简单地去掉标题中的数据,我想出来了。我保留了标题和作者栏,我相信这会成为一个列表。我删除了它,只保留了作者栏,然后拆分和剥离,这很有效。这里有一个1,因为在剥离之后,我使用reduceByKey来计算每个事件的出现次数。谢谢你的帮助。
trimmed_words = words.map(lambda word: word.strip())