Text 什么';这是检测OCR文档中乱码文本的最佳方法

Text 什么';这是检测OCR文档中乱码文本的最佳方法,text,statistics,nlp,ocr,Text,Statistics,Nlp,Ocr,有没有好的NLP或统计技术来检测OCR文本中的乱码?在我的脑海里,我一直在想,看看n-gram在文本中的分布可能是一个很好的起点,但我对整个NLP领域还是相当陌生的 以下是我到目前为止看到的: 文本大部分是英文的,但一般的解决方案会很好。文本目前在Lucene中编入索引,因此任何基于术语的方法的想法都会很有用 任何建议都很好!谢谢 是的,在这种情况下,最强大的是Ngrams。你应该在相关的文本语料库中收集它们(与你的OCR文本主题相同)。这个问题与拼写检查非常相似——如果小字符的变化导

有没有好的NLP或统计技术来检测OCR文本中的乱码?在我的脑海里,我一直在想,看看n-gram在文本中的分布可能是一个很好的起点,但我对整个NLP领域还是相当陌生的

以下是我到目前为止看到的:

文本大部分是英文的,但一般的解决方案会很好。文本目前在Lucene中编入索引,因此任何基于术语的方法的想法都会很有用



任何建议都很好!谢谢

是的,在这种情况下,最强大的是Ngrams。你应该在相关的文本语料库中收集它们(与你的OCR文本主题相同)。这个问题与拼写检查非常相似——如果小字符的变化导致大概率的增加,那就是一个错误。检查如何使用ngram进行拼写检查

几年前,我使用了n-grams,结果相当不错。我使用了ApacheNutch的语言检测器,它在内部使用单词和词内n-gram,然后将文本的“ngram配置文件”与培训材料的n-gram配置文件进行比较。Nutch除了语言之外还提供了一个分数/置信度值,我使用了基于语言(应该是文档所在的语言)和分数的硬截止值。保留了大部分装饰过的文本,但计算成本有点高