Scala 如何从spark中给定的字符串中找到特定的句子?

Scala 如何从spark中给定的字符串中找到特定的句子?,scala,hadoop,rdd,spark-shell,Scala,Hadoop,Rdd,Spark Shell,我想从Spark中的字符串中提取特定部分 例如,我的绳子是 val b= "URL ftp://216.24.126.75/serversoftware/ocs/OCS_Inventory_NGInstallation_and_Administration_Guide_1.7_EN.odt MENTION cryptography 201564 http://en.wikipedia.org/wiki/Cryptography MENTION digital signature 20

我想从Spark中的字符串中提取特定部分

例如,我的绳子是

val b= "URL ftp://216.24.126.75/serversoftware/ocs/OCS_Inventory_NGInstallation_and_Administration_Guide_1.7_EN.odt
MENTION cryptography    201564  http://en.wikipedia.org/wiki/Cryptography
MENTION digital signature   201870  http://en.wikipedia.org/wiki/Digital_signature
TOKEN   decide  153579
TOKEN   Analyze 160938
TOKEN   properly    140437
TOKEN   reselect    78017
TOKEN   writing 60758 "
我想要这样的输出:

(ftp://216.24.126.75/serversoftware/ocs/OCS_Inventory_NGInstallation_and_Administration_Guide_1.7_EN.odt,http://en.wikipedia.org/wiki/Cryptography)
(ftp://216.24.126.75/serversoftware/ocs/OCS_Inventory_NGInstallation_and_Administration_Guide_1.7_EN.odt,http://en.wikipedia.org/wiki/Digital_signature)

您可能可以在string=yourstring.contains(“将您正在搜索的内容放在这里”)上使用此方法。如果你想把字符串连在一起,你可以做字符串a+字符串b。另外,如果你想找出你想找到的某个字符串,我可能会做b.子字符串(indexOf(stringyouaresearchingfor),+你要搜索内容的长度)。如果这看起来令人困惑,请查找字符串方法、indexOf和subString。我也不太了解Spark,所以也许在Spark中有一种更简单的方法,但我建议使用Scala方法。