Java 在scala代码中使用的分隔符^的相应unicode是什么？_Java_Scala_Apache Spark_Unicode

Java 在scala代码中使用的分隔符^的相应unicode是什么？

java scala apache-spark unicode

Java 在scala代码中使用的分隔符^的相应unicode是什么？,java,scala,apache-spark,unicode,Java,Scala,Apache Spark,Unicode,如果记录由^a分隔，则在scala代码中，我可以用作“\u0001”来获取每个字段 val fileLoc = "/user/cloudera/inputfiles/records.txt" val custAccountRDD = sc.textFile(fileLoc) val splitRDD = custAccountRDD.map(elem => elem.split("\\u0001")) 我想知道什么是等效分隔符^_ 输

如果记录由^a分隔，则在scala代码中，我可以用作“\u0001”来获取每个字段

 val fileLoc         = "/user/cloudera/inputfiles/records.txt"

 val custAccountRDD  =    sc.textFile(fileLoc)

 val splitRDD        =    custAccountRDD.map(elem => elem.split("\\u0001"))

我想知道什么是等效分隔符^_

输入记录样本

 4^_123123123^_Any Purchase^_ACTIVE^_1^_DATA^_Published

我的问题是如何根据分隔符分割这些记录^_

我直接尝试了下面的方法，但不起作用

 val splitRDD        =    custAccountRDD.map(elem => elem.split("^_"))

这就是你要找的吗

scala> "4^_123123123^_Any Purchase^_ACTIVE^_1^_DATA^_Published".split("\\^\\_")
res5: Array[String] = Array(4, 123123123, Any Purchase, ACTIVE, 1, DATA, Published)

我不太明白你在问什么。您能否更具体地说明您希望输入的输出是什么？还有关于

：这是一个特殊字符还是字符串“^”？@Dat:^是输入文件中每个记录的分隔符。此分隔符称为单位分隔符。是。多谢。但是没有转义引号还有其他方法吗。？类似“\\u0002”或“\\u0003”的内容。。对于分隔符^A“\\u0001”来说，..IMO使用“^A”比使用“\\u0001”更容易阅读。您正在“\\u0001”中使用转义引号，对吗？这里的问题是您的字符串中有特殊字符（

，

？

，等等），并且

拆分（）

将被混淆，因为它将这些字符视为正则表达式控制字符。使用“\\”来转义正则表达式实际上是正确的做法，并且比尝试使用特殊字符串（如“\\u0001”）要好得多。好的。多谢。我将使用“\\^\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\^_