Java 从字符串中删除停止字以创建簇

Java 从字符串中删除停止字以创建簇,java,Java,我需要使用openrefine来获得一些集群。它是用Java编写的 我无法实现的是,我应该如何修改代码: 尤其是在第93行: s=s.trim();//首先,删除字符串周围的空白 s=s.toLowerCase();//TODO:这是使用默认区域设置。这就是我们想要的吗? s=正常化(s); s=ctrl.matcher.replaceAll(“”;//分解可以生成标点符号,所以在分解后将其剥离 String[]frags=StringUtils.split;//按空格分割(不包括补充字符)

我需要使用openrefine来获得一些集群。它是用Java编写的

我无法实现的是,我应该如何修改代码:

尤其是在第93行:

s=s.trim();//首先,删除字符串周围的空白
s=s.toLowerCase();//TODO:这是使用默认区域设置。这就是我们想要的吗?
s=正常化(s);
s=ctrl.matcher.replaceAll(“”;//分解可以生成标点符号,所以在分解后将其剥离
String[]frags=StringUtils.split;//按空格分割(不包括补充字符)
树集=新树集();
用于(字符串ss:frags){
set.add(ss);//对片段和重复数据进行排序
}
在生成集群之前,是否还要删除单词“and”和“&”符号


提前感谢您的帮助

将要从字符串中删除的单词或字符放入字符串[]数组中,然后使用循环删除以执行任务:

String[] alsoReplace = {"and", "the", "&"};
for (String str : alsoReplace) {
    s = s.replaceAll("(?i)" + str + "(\\s+)?" , "");
}

我不确定你在问什么,你需要使用这个库,但是你需要改变行为?确切地说,我需要改变前面提到的行中的代码,所以从下面的tsring中,也要排除像“and”,“the”,“the”和“you can not change the behavior of the lib,在这种情况下,您需要在您的项目中实现一个新类并使用它,或者创建一个库分支并自己编译(注意推荐)。例如,公共类MyOwnFingerKeyer扩展了FingerprintKeyer和@Override您想要更改的方法。我计划更改代码并自己编译,问题是我没有成功实现我想要的更改上述代码。因此,如果有人能给我一个工作代码,我就可以编译源代码,并在这一行之前添加建议的代码:String[]frags=StringUtils.split(s);//按空格(不包括补充字符)分隔第90行。至少这是我试图解决这个问题的地方
String[] alsoReplace = {"and", "the", "&"};
for (String str : alsoReplace) {
    s = s.replaceAll("(?i)" + str + "(\\s+)?" , "");
}