Java 如何在解析之前忽略ASCII字符?

Java 如何在解析之前忽略ASCII字符?,java,csv,pos-tagger,Java,Csv,Pos Tagger,我试图解析一个CSV文件,我有一个字符BIN 10010111,-我想让文本解析器忽略这个字符。我该怎么做呢?所以我猜你想删除所有特殊字符 我猜是这样的:replaceAll[^\w\s] 编辑:完整代码 import java.io.*; import java.util.ArrayList; import java.util.List; import edu.stanford.nlp.tagger.maxent.MaxentTagger; public class TagText {

我试图解析一个CSV文件,我有一个字符BIN 10010111,-我想让文本解析器忽略这个字符。我该怎么做呢?

所以我猜你想删除所有特殊字符

我猜是这样的:replaceAll[^\w\s]

编辑:完整代码

import java.io.*;
import java.util.ArrayList;
import java.util.List;
import edu.stanford.nlp.tagger.maxent.MaxentTagger;

public class TagText {
    public static void main(String[] args) throws IOException, ClassNotFoundException {
        // Initializing the tagger
        MaxentTagger tagger = new MaxentTagger("taggers/english-left3words-distsim.tagger");
        List<String> lines = new ArrayList<>();
        lines = new ReadCSV().readColumn("Tt2.csv", 4);
        for (String line : lines) {
            String tagged = tagger.tagString(line);
            System.out.println(tagged);
        }
    }
}

不只是这个字符串taged=tagger.tagStringstr.replace-,;没用。str错误,尽管我已经定义了它。你能用修改的内容粘贴整个代码吗?非常感谢。但我的月食似乎在读-,像-。有什么方法可以使用ASCII值吗?String taged=tagger.tagStringline.replace\uFFFD,;-修正了这个问题:10010111b是0x97是十进制151-表示Em破折号的扩展ASCII码,但使用Unicode,Java使用,0x97在中,正确的Unicode字符是U+2014-如果不删除普通破折号,则不需要删除Em破折号,但您必须使用正确的编码(可能是iso-8859-1)读入它,或者在读入0x97->0x2014后进行翻译。我有一个方法可以将C0+C1范围转换为正确的unicode。看见
import java.io.*;
import java.util.ArrayList;
import java.util.List;
import edu.stanford.nlp.tagger.maxent.MaxentTagger;

public class TagText {
    public static void main(String[] args) throws IOException, ClassNotFoundException {
        // Initializing the tagger
        MaxentTagger tagger = new MaxentTagger("taggers/english-left3words-distsim.tagger");
        List<String> lines = new ArrayList<>();
        lines = new ReadCSV().readColumn("Tt2.csv", 4);
        for (String line : lines) {
            String tagged = tagger.tagString(line.replace("\uFFFD",""));
            System.out.println(tagged);
        }
    }
}