Scala 在spark RDD中拆分字符串_Scala_Apache Spark_Rdd - Fatal编程技术网

Scala 在spark RDD中拆分字符串

scala apache-spark

Scala 在spark RDD中拆分字符串,scala,apache-spark,rdd,Scala,Apache Spark,Rdd,我有一个RDD[长字符串]。样本RDD如下所示： (123, name:abc,sr.no:1,name:def,sr.no:2) 我想把这个rdd转换成一个sr.no的列表。输出应该如下所示- (123, [1,2]) 我在scala中使用flatmap方法尝试了这一点，但我只希望“123”和数组中的所有值有一条记录如果使用mapValues，您将保留记录数。下面是一个简单的函数，它可以满足您的需要： scala> def foo(s: String, pattern: Strin

我有一个RDD[长字符串]。样本RDD如下所示：

(123, name:abc,sr.no:1,name:def,sr.no:2)

我想把这个rdd转换成一个sr.no的列表。输出应该如下所示-

(123, [1,2])

我在scala中使用flatmap方法尝试了这一点，但我只希望“123”和数组中的所有值有一条记录

如果使用

mapValues

，您将保留记录数。下面是一个简单的函数，它可以满足您的需要：

scala> def foo(s: String, pattern: String): Array[String] = s.split(",").filter(_.contains(pattern)).map(_.split(":").last)
foo: (s: String)Array[String]

scala> foo("name:abc,sr.no:1,name:def,sr.no:2", "sr.no")
res3: Array[String] = Array(1, 2)

现在您可以拨打：

rdd.mapValues(foo(_, "sr.no")

如果使用

mapValues

，则将保留记录数。下面是一个简单的函数，它可以满足您的需要：

scala> def foo(s: String, pattern: String): Array[String] = s.split(",").filter(_.contains(pattern)).map(_.split(":").last)
foo: (s: String)Array[String]

scala> foo("name:abc,sr.no:1,name:def,sr.no:2", "sr.no")
res3: Array[String] = Array(1, 2)

现在您可以拨打：

rdd.mapValues(foo(_, "sr.no")

您可以使用

regex

提取

sr.no:

后向语法

（？您可以使用regex
提取sr.no:
后向语法（？你在这里不必要地调用map
而不是mapValues
，后者是更好的练习。你在这里不必要地调用map
而不是mapValues
，后者是更好的练习。




[apache spark]相关文章推荐



                                                        
Apache spark pySpark使用键/值从RDD创建数据帧
apache-sparkpyspark 
Apache spark 使用pyspark拆分数据帧的行
apache-sparkpyspark 
Apache spark Amazon EMR 5.0上的spark submit executor内存问题
apache-sparkamazon-ec2 
Apache spark 自定义log4j类在spark 2.0 EMR上不起作用
apache-sparklog4j 
Apache spark PySpark中如何求估计量的所有参数
apache-sparkpyspark 
Apache spark Spark 2.1.1具有Spark.akka.threads=12的特性
apache-spark 
Apache spark 使用与Spark submit相同的jar
apache-spark 
Apache spark join和#x2B之间的比较；groupBy和unionAll+；星火中的群比
apache-sparkpyspark 
Apache spark 连接超时异常，EMR上出现火花红移
apache-spark 
Apache spark 比较两个Spark数据帧
apache-spark 
Apache spark 火花发生矩阵
apache-spark 
Apache spark Spark数据集API groupByKey KeyValueGroupedDataset
apache-spark 
Apache spark 如何使用Spark修复拼花文件分区中不一致的模式
apache-sparkpyspark 
Apache spark 如何加载多个带有无序列的csv文件？
apache-spark 
Apache spark 使用nohup命令自动执行spark作业序列
apache-spark 
Apache spark PySpark-根据另一列的最大值选择不同的行
apache-sparkpyspark 
Apache spark kerberized Hadoop环境中的Spark和启用的高可用性：Spark SQL只能在写入任务后读取数据
apache-sparkhadoop 
Apache spark Dataproc：笔记本电脑群集模式下的Spark
apache-sparkjupyter-notebook 
Apache spark Spark drop复制并选择具有最大值的行
apache-spark 
Apache spark 在Spark SQL查询中使用F.countDistinct
apache-sparkpyspark 
                                       





随机文章推荐



                                                        
如何监视已关闭并正在重新启动的远程erlang节点
erlang 
如何度量函数从ErlangShell执行所需的时间？
erlang 
在Erlang中，如何从模块导入所有函数？
erlang 
如何将Erlang应用程序彼此分离？
erlang 
Erlang 递归循环中的值
erlang 
为什么不在Erlang中支持重叠UDP？
{ok，Socket}=gen_udp:open（9000，[binary，{active，false}，{reuseaddr，true}]），
Pid0=生成链接（fun（）->循环被动（套接字）端），
Pid1=spawn_链接（fun（）->loop_被动（套接字）端）-->错误
.. （每个绑定插座有多个重叠接收）
N
环路_无源（插座）->
案例gen_udp:recv（套接字，0）的
{好，{Addr，Port，Packet}}->
进程（套接字、地址
erlangudp 
Dijkstra'使用什么数据结构；Erlang中的s算法？
erlang 
Erlang gen_服务器如何启动另一个节点上的gen_服务器？
erlang 
Erlang管理器重新启动间隔
erlang 
Erlang 在钢筋运行eunit测试时设置mnesia目录
erlang 
是什么导致了“a”；“不被嘲笑”；使用meck（Erlang）时出错？
erlang 
Erlang的声纳qube分析
erlangsonarqube 
Erlang Ejabberd配置：错误：找不到libyaml库
erlang 
Erlang 从Riak的铲斗连续生产钥匙
erlang 
Erlang ejabberd正在从mysql存档同步消息
erlang 
Erlang 在函数中使用记录
erlang 
Erlang 原子数量的限制
erlangelixir 
yum-remove不适用于erlang*
erlang 
Erlang 启动ibrowse以支持对服务器的无限请求
erlang 
Erlang 具体解码选择ASN.1
erlangelixir


                                        

                                        
                                        


                                                
                                                        [scala]相关推荐
                                                        
Scala 作为非常灵活的方法命名规则和用于方法调用的中缀语法，当中缀语法与“运算符”一起使用时，具有确定方法优先级的特殊规则。与真正的运算符重载（一种la C++）相比，这种微妙的区别对该语言功能的实用性和滥用的可能性有着至关重要的影响，正如James Iry在对的回答中更透彻地解释的那样。
									Scala
							 									Programming Languages
							 
Scala 如何使以下代码类型安全？
									Scala
							 									Types
							 
Play Framework 2（Scala）模板：查看用户是否登录
									Scala
							 									Playframework
							 									Playframework 2.0
							 
使用Play2/Scala定期进行WS调用以向枚举器提供数据的最佳方法？
									Scala
							 									Playframework
							 									Playframework 2.0
							 
Scala 子类中的特定参数类型不可能
									Scala
							 
如何处理Scala中的类型名称冲突？
									Scala
							 
Scala 播放框架CSS/JS聚合
									Scala
							 									Playframework 2.0
							 
Scala 在for表达式中使用默认值处理异常
									Scala
							 									Exception
							 
Scala中理解性评价的奇怪（？）
									Scala
							 									Recursion
							 
Scala 类型中的尾随逗号
									Scala
							 									Types
							 
Scala 宏返回类型取决于参数
									Scala
							 
Scala 存在类型的最佳用例
									Scala
							 
如何在scala中执行本机算术而不是方法调用？
									Scala
							 
为什么有些东西在Scala'；s图书馆？
									Scala
							 									Playframework
							 									Playframework 2.0
							 									Akka
							 
非法响应集管Scala喷淋管道
									Scala
							 
Scala 我的Spark流媒体应用程序中的java.lang.NullPointerException
									Scala
							 									Apache Spark
							 
导入SBT项目时Intellij[Scala+；SBT]错误
									Scala
							 									Intellij Idea
							 									Sbt
							 
Scala Apache齐柏林飞艇0.6.1：运行Spark 2.0推特流应用程序
									Scala
							 									Apache Spark
							 
Scala Spark cassandra连接器不工作'；t在独立的Spark cluster中工作
									Scala
							 									Apache Spark
							 									Cassandra
							 
Scala 将'T[\ult；：U]`转换为'T[U]`
									Scala
							 
Scala sbt-服务器访问错误：连接重置？
									Scala
							 									Sbt
							 
使用Monad时出现Scalaz不明确的导入错误
									Scala
							 
Scala 如何更改Spark数据集上的架构
									Scala
							 									Apache Spark
							 
Scala Akka参与者继承与context.been
									Scala
							 									Akka
							 
Scala 我是否可以访问要注释的变量（val/var）主体中注释的参数值？
									Scala
							 									Macros
							 
将json转换为scala case类
									Scala
							 
Scala 创建可对2个字符串进行操作的方法
									Scala
							 
Scala 使用所需的键和值更新Map类型的spark dataframe列
									Scala
							 									Dataframe
							 									Apache Spark
							 
Scala spark-方法错误：匿名函数的参数类型必须完全已知
									Scala
							 									Apache Spark
							 
如何在scala中从纱线客户端获取纱线作业状态
									Scala
							 									Apache Spark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
C#
Joomla
Blazor
Geometry
Memory
Facebook Graph Api
Animation
Winapi
Notifications
Asp.net Web Api
Qt4
Active Directory
Azure Ad B2c
Spring Batch
Filter
Google App Maker
Com
Serial Port
Clang
Apache Kafka
.htaccess
Debian
Inheritance
Grafana
Drop Down Menu
Model View Controller
Emacs
Weblogic
Module
Big O
Spring Cloud
Yii2
Makefile
Extjs
Excel Formula
Cookies
Installation
Mfc
Vaadin
Scrapy
Mapreduce
Github
Deep Learning
Dotnetnuke
Exchange Server
Ruby On Rails
Windows Phone 8
Hadoop
Amazon Dynamodb
Aws Lambda
Ldap
Arangodb
Flask
Report
Apache Zookeeper
File Upload
Socket.io
Yaml
Cypress
Openlayers 3
Jira
Directx
Vhdl
Sql Server 2005
Git
Character Encoding
Ubuntu
Libgdx
Telerik
Swiftui
Synchronization
Silverlight 4.0
Unity3d
Asp.net Mvc 3
Wix
Sbt
Chef Infra
List
Ant
Network Programming
Wordpress
Configuration
Java
Keycloak
Ftp
Angularjs
Vbscript
Laravel 4
Jersey
Documentation
Jwt
Tkinter
Odata
Indexing
Go
Ajax
Debugging
Groovy
Drupal 7
Axapta
Streaming
Rust
Ada
Shiny
Jaxb
Sip
Julia
Fiware
Windows
Google Drive Api
Version Control
Visual Studio 2015
Artificial Intelligence
Internationalization
Bootstrap 4
Inno Setup
C
Cocoa
Sharepoint
Ssas
Silverlight
Optimization
Shell
Umbraco
Windows 7
Rx Java
Scikit Learn
Tsql
Formatting
Search
Doxygen
Swagger
Ignite
F#
View
Docusignapi
Functional Programming
Mips
Webgl
Perforce
Swift
Artifactory
Webpack
Apache Flink
Bluetooth
Netbeans
Xquery
Google Chrome Extension
Tabs
Button
Linux
Abap
Matlab
Math
Amazon Redshift
Asp.net Core Mvc
Isabelle
Ruby On Rails 3.2
Gwt
Javascript
Menu
Android
Udp
Cluster Computing
Data Structures
Open Source
Opengl
Jdbc
Ethereum
Javafx
Api
Jhipster
Aem
Selenium
Push Notification
Python 2.7
Zsh
Nest
Azure Functions
Sonarqube
Xaml
Pandas
Applescript
Windows Runtime
Gis
Opencl
Embedded
Magento
Java 8
Automated Tests
Solr
Stm32
Reactjs
Dart
Templates
Phantomjs
Virtual Machine
Windows Mobile
C++11
Cordova
Scripting


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网