Python 如何在ApacheSpark中使用键值

Python 如何在ApacheSpark中使用键值,python,scala,apache-spark,Python,Scala,Apache Spark,我试图为作者和他所写的书创建键值对RDD 数据集看起来是这样的,两个选项卡将书籍和作者分开,然后按空格分隔后续字段 Rowling, JK two tabs Harry Potter and the Chamber of Secrets space (1998) two tabs Harry Potter and the Order of the Phoenix space (2003) 其中两个制表符是两个制表符空间,空格表示单个空间 我的问题是如何将这两本

我试图为作者和他所写的书创建键值对RDD

数据集看起来是这样的,两个选项卡将书籍和作者分开,然后按空格分隔后续字段

Rowling, JK  two tabs Harry Potter and the Chamber of Secrets space (1998)   
             two tabs Harry Potter and the Order of the Phoenix space (2003)
其中两个制表符是两个制表符空间,空格表示单个空间


我的问题是如何将这两本书映射到spark中的单个作者并创建RDD?

请向我们展示您已经尝试过的内容。我是这方面的新手,我尝试过拆分行,例如author.map(line=>line.split(“\t+”),但这不适用于此,请不要只说“这不适用”。你得到了什么,你期望得到什么?在标签上拆分会有所帮助!您是否只有第一行的作者姓名?这就是问题所在吗?如果是,请在问题中说明这一点。(标题应该更具体)谢谢!如果确实是这样,我会回来回答,我只是不确定我是否理解正确:)。是的,作者的名字只是放在第一位。。我试图实现的是关键价值对,如(jk罗琳,哈利波特和密室)和(jk罗琳,哈利波特和凤凰社)。。其他一些帖子我得到了使用toe映射分区的信息,但我不知道如何将它与python for spark RDD结合使用