Python将OCR训练扩展到特定的单词列表

Python将OCR训练扩展到特定的单词列表,python,string,image-processing,ocr,tesseract,Python,String,Image Processing,Ocr,Tesseract,我对OCR和Tesseract都是新手 到目前为止,我有一个工作脚本,可以从图像中提取相当好的文本 我的疑问是:是否可以训练tesseract只检索某种字典文件中的单词/字符 例如,我有一个包含大量人名的.txt文件,我想训练Tesseract“SONIA”不是“50NlA”,而“YANNICK”不是“VANNlD”,等等 如果它有一个所有可能的名字列表,它将能够提供更好的准确性?如果原始图像是一个包含大量人名和其他有关该人名的信息的文本,但我只想从ocr检索人名而忽略“嘈杂信息”,我该怎么办?

我对OCR和Tesseract都是新手

到目前为止,我有一个工作脚本,可以从图像中提取相当好的文本

我的疑问是:是否可以训练tesseract只检索某种字典文件中的单词/字符

例如,我有一个包含大量人名的.txt文件,我想训练Tesseract“SONIA”不是“50NlA”,而“YANNICK”不是“VANNlD”,等等

如果它有一个所有可能的名字列表,它将能够提供更好的准确性?如果原始图像是一个包含大量人名和其他有关该人名的信息的文本,但我只想从ocr检索人名而忽略“嘈杂信息”,我该怎么办?对不起,如果这是一个愚蠢的问题

我已经阅读了本手册,并创建了eng.user-words和bazaar文件。。。下一步该怎么办?因为它给了我同样的输出


非常感谢您的时间和耐心。

基本上,每当您遇到“50NlA”时,您都希望将其存储为“SONIA”(已经过培训),对吗?我想是的,因为我有一个正确的名字列表!。。。我在这里读过关于集市的文章,但没有很好地理解它。这是一个类似的问题。你可以做的是,你可以用你的单词训练你的数据,但在检查的同时,你可以根据单词的Levenshtein距离来比较它们(以测量两个单词的相似程度)。如果您发现相似性,请继续使用训练数据中的单词,否则请更新它。阅读更多关于Levenshtein distance的信息:@InêsMartins我认为在这种情况下,你不会有任何真正好的可能性。建议的Levenshtein距离可能是最好的。