Python RDD是否有trim（）函数？_Python_Apache Spark_Pyspark_Rdd

Python RDD是否有trim（）函数？

python apache-spark pyspark

Python RDD是否有trim（）函数？,python,apache-spark,pyspark,rdd,Python,Apache Spark,Pyspark,Rdd,要删除前导空格和尾随空格，我知道可以在数据帧上使用trim。使用RDD时是否有类似的功能？如果没有，你会怎么做编辑：添加了一些代码： nonNullRDD = marchRDD.filter(lambda row: row.title).filter(lambda row: row.authors) titleRDD = nonNullRDD.map(lambda field: (field.title, field.authors)) splitRDD = titleRDD.flatMap

要删除前导空格和尾随空格，我知道可以在数据帧上使用trim。使用RDD时是否有类似的功能？如果没有，你会怎么做

编辑：添加了一些代码：

nonNullRDD = marchRDD.filter(lambda row: row.title).filter(lambda row: row.authors)
titleRDD = nonNullRDD.map(lambda field: (field.title, field.authors))
splitRDD = titleRDD.flatMap(lambda field: [(field[0], z) for z in field[1].split(";")])
authorRDD = splitRDD.map(lambda field: [field[1], 1])
test = authorRDD.flatMap(lambda word: word.strip())

RDD没有字符串函数

我相信您正在寻找Python

str.strip（）

这是一个“列表对象没有属性条”错误。我已将代码添加到原始问题中。我理解这是因为我已经在所有映射中创建了一个列表，但是我该如何补救呢？您需要知道RDD包含什么类型的对象。我的回答假设您有一个字符串的RDD，而不是列表。请注意，由于某些原因，authordd的lambda有一个1。。。你可以简单地去掉标题中的数据，我想出来了。我保留了标题和作者栏，我相信这会成为一个列表。我删除了它，只保留了作者栏，然后拆分和剥离，这很有效。这里有一个1，因为在剥离之后，我使用reduceByKey来计算每个事件的出现次数。谢谢你的帮助。

trimmed_words = words.map(lambda word: word.strip())