Java Apache Tika无法检测短句中的语言。为什么？_Java_Nlp_Apache Tika

Java Apache Tika无法检测短句中的语言。为什么？

java nlp

Java Apache Tika无法检测短句中的语言。为什么？,java,nlp,apache-tika,Java,Nlp,Apache Tika,我试着在短短语上检测语言，但很惊讶检测结果是错误的 LanguageDetector detector = new OptimaizeLangDetector(); try { detector.loadModels(); } catch (IOException e) { LOG.error(e.getMessage(), e); throw new ExceptionInInitializerError(e);

我试着在短短语上检测语言，但很惊讶检测结果是错误的

    LanguageDetector detector = new OptimaizeLangDetector();
    try {
        detector.loadModels();
    } catch (IOException e) {
        LOG.error(e.getMessage(), e);
        throw new ExceptionInInitializerError(e);
    }
    LanguageResult languageResult = detector.detect("Hello, my friend!")

languageResult包含概率为“中等”的挪威语。为什么？我想应该是英语。较长的短语似乎可以被正确地检测到。这是否意味着不应在短文本中使用Apache Tika？

这在短文本中不起作用。正如文献中所说：

使用的LanguageDetector API的实现

从

我们将回顾一下github，并检查他们在短文本方面存在的一些问题

当要分析的输入文本为空时，此软件无法正常工作矮小的，不干净的。比如推特

从他们面临的挑战来看

这在短文本中是行不通的。正如文献中所说：

使用的LanguageDetector API的实现

从

我们将回顾一下github，并检查他们在短文本方面存在的一些问题

当要分析的输入文本为空时，此软件无法正常工作矮小的，不干净的。比如推特

从他们的挑战领域