Java 在scala代码中使用的分隔符^的相应unicode是什么?
如果记录由^a分隔,则在scala代码中,我可以用作“\u0001”来获取每个字段Java 在scala代码中使用的分隔符^的相应unicode是什么?,java,scala,apache-spark,unicode,Java,Scala,Apache Spark,Unicode,如果记录由^a分隔,则在scala代码中,我可以用作“\u0001”来获取每个字段 val fileLoc = "/user/cloudera/inputfiles/records.txt" val custAccountRDD = sc.textFile(fileLoc) val splitRDD = custAccountRDD.map(elem => elem.split("\\u0001")) 我想知道什么是等效分隔符^_ 输
val fileLoc = "/user/cloudera/inputfiles/records.txt"
val custAccountRDD = sc.textFile(fileLoc)
val splitRDD = custAccountRDD.map(elem => elem.split("\\u0001"))
我想知道什么是等效分隔符^_
输入记录样本
4^_123123123^_Any Purchase^_ACTIVE^_1^_DATA^_Published
我的问题是如何根据分隔符分割这些记录^_
我直接尝试了下面的方法,但不起作用
val splitRDD = custAccountRDD.map(elem => elem.split("^_"))
这就是你要找的吗
scala> "4^_123123123^_Any Purchase^_ACTIVE^_1^_DATA^_Published".split("\\^\\_")
res5: Array[String] = Array(4, 123123123, Any Purchase, ACTIVE, 1, DATA, Published)
我不太明白你在问什么。您能否更具体地说明您希望输入的输出是什么?还有关于
^
:这是一个特殊字符还是字符串“^”?@Dat:^是输入文件中每个记录的分隔符。此分隔符称为单位分隔符。是。多谢。但是没有转义引号还有其他方法吗。?类似“\\u0002”或“\\u0003”的内容。。对于分隔符^A“\\u0001”来说,..IMO使用“^A”比使用“\\u0001”更容易阅读。您正在“\\u0001”中使用转义引号,对吗?这里的问题是您的字符串中有特殊字符(^
,
,?
,等等),并且拆分()
将被混淆,因为它将这些字符视为正则表达式控制字符。使用“\\”来转义正则表达式实际上是正确的做法,并且比尝试使用特殊字符串(如“\\u0001”)要好得多。好的。多谢。我将使用“\\^\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\^_