Java无法比较ö;(瑞典语字符)来自pdfbox

Java无法比较ö;(瑞典语字符)来自pdfbox,java,character-encoding,selenium-webdriver,itext,pdfbox,Java,Character Encoding,Selenium Webdriver,Itext,Pdfbox,我使用pdfbox从pdf文件中获取数据 我正在使用SeleniumWebDriver将该数据与网页数据进行比较。 我能够从这两方面获得数据。 我使用contains方法来比较这两个数据。 Java能够比较glädjande类型的数据,但当Kommunstyrelsens ordförande用作句子时,它无法匹配。然而,ordförande作为一个单词是可以匹配的。 我也试过了 PDFTextStripper pdfStripper = new PDFTextStripper("ISO8859

我使用pdfbox从pdf文件中获取数据 我正在使用SeleniumWebDriver将该数据与网页数据进行比较。 我能够从这两方面获得数据。 我使用contains方法来比较这两个数据。 Java能够比较glädjande类型的数据,但当Kommunstyrelsens ordförande用作句子时,它无法匹配。然而,ordförande作为一个单词是可以匹配的。 我也试过了

PDFTextStripper pdfStripper = new PDFTextStripper("ISO8859_1");

但无法使用contains方法匹配数据。

使用java的collater类更改区域设置并比较非英语字符串和字符

import java.text.Collator;
import java.util.Locale;

    public class CollatorExp {

    public static void main(String[] args) {
        Collator collator = Collator.getInstance(Locale.FRENCH);
        collator.setStrength(Collator.PRIMARY);

        if (collator.compare("xéáuér", "xéáuér") == 0) {
            System.out.println("Equal");
        } else {
            System.out.println("Not Equal");
        }
    } 
}
通过这一点,我可以忽略öas o:)


我还没有找到如何比较那个字符,但这可以作为它的替代品

我的pdf文件是瑞典语的。Collator没有Locale.swedish,我也不知道:(:(如果java能够比较类似“Kommunstyrelsens ordförande”的字符串,但从pdf文件获取后,它无法作为一个单词进行比较。我也使用pdfbox和itextpdf进行了检查。但同样的情况也在发生!@SK See.Use
new Locale(“sv”,“SE”)
应该是there@Testpublic void TCTwoStringCompare(){String str1=“Kommunstyrelsens ordförande Kommunstyrelsens ordförande”String str2=“Kommunstyrens ordförande Kommunstyrelsens”System.out.println(str1.contains(str2));}//这正在工作。请尝试打印两个字符串的字符代码。可能在一种情况下,您没有
ö
,而是有一个
ő
。我已经在瑞典语中使用了PDFTextStripper pdfStripper=new PDFTextStripper(“ISO-8859-1”);如何知道字符串的字符代码(char c:string.tocharray())System.out.println((int)c);
String normalized = Normalizer.normalize(local, Normalizer.Form.NFD); 
String ascii = normalized.replaceAll("[^\\p{ASCII}]", "");