Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/316.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/string/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在java中使用多个分隔符拆分字符串_Java_String_Stop Words - Fatal编程技术网

在java中使用多个分隔符拆分字符串

在java中使用多个分隔符拆分字符串,java,string,stop-words,Java,String,Stop Words,我正在研究一种数据挖掘算法,需要使用多个单词标记字符串。我有一个单独的文件,其中包含所有stopwords。我需要做的是用任何一个单词(stopword)作为分隔符来标记输入字符串。 例如, 如果文件包含stopwords,则为 a 是 和 属于 那 输入字符串变成 “计算机群集由一组松散连接的计算机组成,这些计算机一起工作” 输出结果为 计算机集群包括 设置 松散连接的计算机 一起工作 根据所有停止字递归检查字符串将非常耗时?有什么好方法吗?构造表单的正则表达式 delim1|delim2|d

我正在研究一种数据挖掘算法,需要使用多个单词标记字符串。我有一个单独的文件,其中包含所有stopwords。我需要做的是用任何一个单词(stopword)作为分隔符来标记输入字符串。 例如,
如果文件包含stopwords,则为
a


属于

输入字符串变成
“计算机群集由一组松散连接的计算机组成,这些计算机一起工作”
输出结果为
计算机集群包括
设置
松散连接的计算机
一起工作


根据所有停止字递归检查字符串将非常耗时?有什么好方法吗?

构造表单的正则表达式

delim1|delim2|delim3
然后使用
String
split()


为了构造regexp,读取每个分隔符,并将其传递给
Pattern.quote
,然后再附加到生成的regex。这将允许您的分隔符也使用regex元字符。

正则表达式可能会很有用。注意:您的意思是“迭代”而不是“递归”,我想这可能会对您有所帮助。但这并不能解决你的问题。