Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/318.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java中字符串数组的自定义解析_Java_Arrays_String_Parsing - Fatal编程技术网

Java中字符串数组的自定义解析

Java中字符串数组的自定义解析,java,arrays,string,parsing,Java,Arrays,String,Parsing,我有这样一个字符串数组(来自Twitter): 我想要的是1)将此字符串转换为数组,2)删除停止词并包含词干3)删除除“#”以外的所有字符,该字符表示术语是哈希标记 所以我尝试使用这个很酷的库,它可以进行词干分析并删除停止词,以及小写和删除字符。问题是这样会删除hashtag。 代码: String tweetString = ExudeData.getInstance().filterStoppingsKeepDuplicates(str); 我也试过: String[] wordArray

我有这样一个字符串数组(来自Twitter):

我想要的是1)将此字符串转换为数组,2)删除停止词并包含词干3)删除除“#”以外的所有字符,该字符表示术语是哈希标记

所以我尝试使用这个很酷的库,它可以进行词干分析并删除停止词,以及小写和删除字符。问题是这样会删除hashtag。 代码:

String tweetString = ExudeData.getInstance().filterStoppingsKeepDuplicates(str);
我也试过:

String[] wordArray = str.replaceAll("[^a-zA-Z ]", "").toLowerCase().split("\\s+");

但这也会删除hashtag。使用这两种方法保留hashtag有什么解决方法吗?(我更愿意为此保留exude库)

使用regex方法,您可以尝试在不应删除的字符列表中添加
#
,如下所示:

        String[] wordArray = str.replaceAll("[^a-zA-Z #]", "").toLowerCase().split("\\s+");

在处理之前提取hashtag。如果需要,在处理后追加。好主意,你能告诉我这是什么样子吗?
        String[] wordArray = str.replaceAll("[^a-zA-Z #]", "").toLowerCase().split("\\s+");