Java Apache Tika无法检测短句中的语言。为什么?
我试着在短短语上检测语言,但很惊讶检测结果是错误的Java Apache Tika无法检测短句中的语言。为什么?,java,nlp,apache-tika,Java,Nlp,Apache Tika,我试着在短短语上检测语言,但很惊讶检测结果是错误的 LanguageDetector detector = new OptimaizeLangDetector(); try { detector.loadModels(); } catch (IOException e) { LOG.error(e.getMessage(), e); throw new ExceptionInInitializerError(e);
LanguageDetector detector = new OptimaizeLangDetector();
try {
detector.loadModels();
} catch (IOException e) {
LOG.error(e.getMessage(), e);
throw new ExceptionInInitializerError(e);
}
LanguageResult languageResult = detector.detect("Hello, my friend!")
languageResult包含概率为“中等”的挪威语。为什么?我想应该是英语。较长的短语似乎可以被正确地检测到。这是否意味着不应在短文本中使用Apache Tika?这在短文本中不起作用。正如文献中所说: 使用的LanguageDetector API的实现 从 我们将回顾一下github,并检查他们在短文本方面存在的一些问题 当要分析的输入文本为空时,此软件无法正常工作 矮小的,不干净的。比如推特
从他们面临的挑战来看这在短文本中是行不通的。正如文献中所说: 使用的LanguageDetector API的实现 从 我们将回顾一下github,并检查他们在短文本方面存在的一些问题 当要分析的输入文本为空时,此软件无法正常工作 矮小的,不干净的。比如推特 从他们的挑战领域