从字符串java替换stopword,如何处理第一个字符

从字符串java替换stopword,如何处理第一个字符,java,regex,Java,Regex,嘿,我正在做一个项目,我必须从tweet中删除stopwords(或者更确切地说是某些单词,我有一个大约560个单词的列表),我使用了以下代码: tweet= tweet.replaceAll(' '+stopword+' ', ""); 但这里有一个问题,因为第一个词也可以是stopword,所以若你们在思考,那个么如何处理tweet的第一个词是否是stopword呢 text = text.replaceAll(stopword+' ', ""); 那么这将不起作用,因为一些停止字是一个

嘿,我正在做一个项目,我必须从tweet中删除stopwords(或者更确切地说是某些单词,我有一个大约560个单词的列表),我使用了以下代码:

tweet= tweet.replaceAll(' '+stopword+' ', "");
但这里有一个问题,因为第一个词也可以是stopword,所以若你们在思考,那个么如何处理tweet的第一个词是否是stopword呢

text = text.replaceAll(stopword+' ', "");

那么这将不起作用,因为一些停止字是一个单词的结尾字符,所以请给出一个解决方案。提前感谢

使用单词打断边界匹配器:

"\\b" + Pattern.quote(stopword) + "\\b"
这与分词匹配,包括空格、字符串的开始/结束、标点符号等。有关更多详细信息,请参阅java.util.Pattern文档


我还指出,stopword应该被引用,因为它看起来像一个变量,因此不应该被信任包含有效的正则表达式。

使用单词break boundary matcher:

"\\b" + Pattern.quote(stopword) + "\\b"
这与分词匹配,包括空格、字符串的开始/结束、标点符号等。有关更多详细信息,请参阅java.util.Pattern文档


我还指出,stopword应该被引用,因为它看起来像一个变量,因此不应该被信任包含有效的正则表达式。

使用单词break boundary matcher:

"\\b" + Pattern.quote(stopword) + "\\b"
这与分词匹配,包括空格、字符串的开始/结束、标点符号等。有关更多详细信息,请参阅java.util.Pattern文档


我还指出,stopword应该被引用,因为它看起来像一个变量,因此不应该被信任包含有效的正则表达式。

使用单词break boundary matcher:

"\\b" + Pattern.quote(stopword) + "\\b"
这与分词匹配,包括空格、字符串的开始/结束、标点符号等。有关更多详细信息,请参阅java.util.Pattern文档


我还指出,stopword应该被引用,因为它看起来像一个变量,因此不应该被信任包含有效的正则表达式。

注意\\b可能不能很好地处理非ASCII字符;或者这是用Java实现的?对于JavaScript,我需要使用自定义字符类创建自己的伪单词边界,以处理斯堪的纳维亚语单词,这些单词有时以字母开头/结尾,如æøåäää。@Eirik听起来完全有道理,它可能存在类似的问题。我想是买主的警告。事实上,它似乎起作用了!这是我第一次看到。加油,爪哇!感谢上述代码的有效性,同时我通过连接所有非停止字的标记来生成字符串来解决:)注意,\\b可能无法很好地处理非ASCII字符;或者这是用Java实现的?对于JavaScript,我需要使用自定义字符类创建自己的伪单词边界,以处理斯堪的纳维亚语单词,这些单词有时以字母开头/结尾,如æøåäää。@Eirik听起来完全有道理,它可能存在类似的问题。我想是买主的警告。事实上,它似乎起作用了!这是我第一次看到。加油,爪哇!感谢上述代码的有效性,同时我通过连接所有非停止字的标记来生成字符串来解决:)注意,\\b可能无法很好地处理非ASCII字符;或者这是用Java实现的?对于JavaScript,我需要使用自定义字符类创建自己的伪单词边界,以处理斯堪的纳维亚语单词,这些单词有时以字母开头/结尾,如æøåäää。@Eirik听起来完全有道理,它可能存在类似的问题。我想是买主的警告。事实上,它似乎起作用了!这是我第一次看到。加油,爪哇!感谢上述代码的有效性,同时我通过连接所有非停止字的标记来生成字符串来解决:)注意,\\b可能无法很好地处理非ASCII字符;或者这是用Java实现的?对于JavaScript,我需要使用自定义字符类创建自己的伪单词边界,以处理斯堪的纳维亚语单词,这些单词有时以字母开头/结尾,如æøåäää。@Eirik听起来完全有道理,它可能存在类似的问题。我想是买主的警告。事实上,它似乎起作用了!这是我第一次看到。加油,爪哇!感谢上面的代码,同时我通过连接所有非停止字的标记来生成字符串来解决:)