Java中字符串数组的自定义解析
我有这样一个字符串数组(来自Twitter): 我想要的是1)将此字符串转换为数组,2)删除停止词并包含词干3)删除除“#”以外的所有字符,该字符表示术语是哈希标记 所以我尝试使用这个很酷的库,它可以进行词干分析并删除停止词,以及小写和删除字符。问题是这样会删除hashtag。 代码:Java中字符串数组的自定义解析,java,arrays,string,parsing,Java,Arrays,String,Parsing,我有这样一个字符串数组(来自Twitter): 我想要的是1)将此字符串转换为数组,2)删除停止词并包含词干3)删除除“#”以外的所有字符,该字符表示术语是哈希标记 所以我尝试使用这个很酷的库,它可以进行词干分析并删除停止词,以及小写和删除字符。问题是这样会删除hashtag。 代码: String tweetString = ExudeData.getInstance().filterStoppingsKeepDuplicates(str); 我也试过: String[] wordArray
String tweetString = ExudeData.getInstance().filterStoppingsKeepDuplicates(str);
我也试过:
String[] wordArray = str.replaceAll("[^a-zA-Z ]", "").toLowerCase().split("\\s+");
但这也会删除hashtag。使用这两种方法保留hashtag有什么解决方法吗?(我更愿意为此保留exude库)使用regex方法,您可以尝试在不应删除的字符列表中添加
#
,如下所示:
String[] wordArray = str.replaceAll("[^a-zA-Z #]", "").toLowerCase().split("\\s+");
在处理之前提取hashtag。如果需要,在处理后追加。好主意,你能告诉我这是什么样子吗?
String[] wordArray = str.replaceAll("[^a-zA-Z #]", "").toLowerCase().split("\\s+");