Scala 如何从spark中给定的字符串中找到特定的句子?
我想从Spark中的字符串中提取特定部分 例如,我的绳子是Scala 如何从spark中给定的字符串中找到特定的句子?,scala,hadoop,rdd,spark-shell,Scala,Hadoop,Rdd,Spark Shell,我想从Spark中的字符串中提取特定部分 例如,我的绳子是 val b= "URL ftp://216.24.126.75/serversoftware/ocs/OCS_Inventory_NGInstallation_and_Administration_Guide_1.7_EN.odt MENTION cryptography 201564 http://en.wikipedia.org/wiki/Cryptography MENTION digital signature 20
val b= "URL ftp://216.24.126.75/serversoftware/ocs/OCS_Inventory_NGInstallation_and_Administration_Guide_1.7_EN.odt
MENTION cryptography 201564 http://en.wikipedia.org/wiki/Cryptography
MENTION digital signature 201870 http://en.wikipedia.org/wiki/Digital_signature
TOKEN decide 153579
TOKEN Analyze 160938
TOKEN properly 140437
TOKEN reselect 78017
TOKEN writing 60758 "
我想要这样的输出:
(ftp://216.24.126.75/serversoftware/ocs/OCS_Inventory_NGInstallation_and_Administration_Guide_1.7_EN.odt,http://en.wikipedia.org/wiki/Cryptography)
(ftp://216.24.126.75/serversoftware/ocs/OCS_Inventory_NGInstallation_and_Administration_Guide_1.7_EN.odt,http://en.wikipedia.org/wiki/Digital_signature)
您可能可以在string=yourstring.contains(“将您正在搜索的内容放在这里”)上使用此方法。如果你想把字符串连在一起,你可以做字符串a+字符串b。另外,如果你想找出你想找到的某个字符串,我可能会做b.子字符串(indexOf(stringyouaresearchingfor),+你要搜索内容的长度)。如果这看起来令人困惑,请查找字符串方法、indexOf和subString。我也不太了解Spark,所以也许在Spark中有一种更简单的方法,但我建议使用Scala方法。