Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/393.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 在scala代码中使用的分隔符^的相应unicode是什么?_Java_Scala_Apache Spark_Unicode - Fatal编程技术网

Java 在scala代码中使用的分隔符^的相应unicode是什么?

Java 在scala代码中使用的分隔符^的相应unicode是什么?,java,scala,apache-spark,unicode,Java,Scala,Apache Spark,Unicode,如果记录由^a分隔,则在scala代码中,我可以用作“\u0001”来获取每个字段 val fileLoc = "/user/cloudera/inputfiles/records.txt" val custAccountRDD = sc.textFile(fileLoc) val splitRDD = custAccountRDD.map(elem => elem.split("\\u0001")) 我想知道什么是等效分隔符^_ 输

如果记录由^a分隔,则在scala代码中,我可以用作“\u0001”来获取每个字段

 val fileLoc         = "/user/cloudera/inputfiles/records.txt"

 val custAccountRDD  =    sc.textFile(fileLoc)

 val splitRDD        =    custAccountRDD.map(elem => elem.split("\\u0001"))
我想知道什么是等效分隔符^_

输入记录样本

 4^_123123123^_Any Purchase^_ACTIVE^_1^_DATA^_Published
我的问题是如何根据分隔符分割这些记录^_

我直接尝试了下面的方法,但不起作用

 val splitRDD        =    custAccountRDD.map(elem => elem.split("^_"))

这就是你要找的吗

scala> "4^_123123123^_Any Purchase^_ACTIVE^_1^_DATA^_Published".split("\\^\\_")
res5: Array[String] = Array(4, 123123123, Any Purchase, ACTIVE, 1, DATA, Published)

我不太明白你在问什么。您能否更具体地说明您希望输入的输出是什么?还有关于
^
:这是一个特殊字符还是字符串“^”?@Dat:^是输入文件中每个记录的分隔符。此分隔符称为单位分隔符。是。多谢。但是没有转义引号还有其他方法吗。?类似“\\u0002”或“\\u0003”的内容。。对于分隔符^A“\\u0001”来说,..IMO使用“^A”比使用“\\u0001”更容易阅读。您正在“\\u0001”中使用转义引号,对吗?这里的问题是您的字符串中有特殊字符(
^
,等等),并且
拆分()
将被混淆,因为它将这些字符视为正则表达式控制字符。使用“\\”来转义正则表达式实际上是正确的做法,并且比尝试使用特殊字符串(如“\\u0001”)要好得多。好的。多谢。我将使用“\\^\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\^_