Text 什么'；这是检测OCR文档中乱码文本的最佳方法_Text_Statistics_Nlp_Ocr

Text 什么'；这是检测OCR文档中乱码文本的最佳方法

text statistics nlp

Text 什么'；这是检测OCR文档中乱码文本的最佳方法,text,statistics,nlp,ocr,Text,Statistics,Nlp,Ocr,有没有好的NLP或统计技术来检测OCR文本中的乱码？在我的脑海里，我一直在想，看看n-gram在文本中的分布可能是一个很好的起点，但我对整个NLP领域还是相当陌生的以下是我到目前为止看到的：文本大部分是英文的，但一般的解决方案会很好。文本目前在Lucene中编入索引，因此任何基于术语的方法的想法都会很有用任何建议都很好！谢谢是的，在这种情况下，最强大的是Ngrams。你应该在相关的文本语料库中收集它们（与你的OCR文本主题相同）。这个问题与拼写检查非常相似——如果小字符的变化导

有没有好的NLP或统计技术来检测OCR文本中的乱码？在我的脑海里，我一直在想，看看n-gram在文本中的分布可能是一个很好的起点，但我对整个NLP领域还是相当陌生的

以下是我到目前为止看到的：

文本大部分是英文的，但一般的解决方案会很好。文本目前在Lucene中编入索引，因此任何基于术语的方法的想法都会很有用

任何建议都很好！谢谢

是的，在这种情况下，最强大的是Ngrams。你应该在相关的文本语料库中收集它们（与你的OCR文本主题相同）。这个问题与拼写检查非常相似——如果小字符的变化导致大概率的增加，那就是一个错误。检查如何使用ngram进行拼写检查

几年前，我使用了n-grams，结果相当不错。我使用了ApacheNutch的语言检测器，它在内部使用单词和词内n-gram，然后将文本的“ngram配置文件”与培训材料的n-gram配置文件进行比较。Nutch除了语言之外还提供了一个分数/置信度值，我使用了基于语言（应该是文档所在的语言）和分数的硬截止值。保留了大部分装饰过的文本，但计算成本有点高