Python将OCR训练扩展到特定的单词列表_Python_String_Image Processing_Ocr_Tesseract

Python将OCR训练扩展到特定的单词列表

python string image-processing

Python将OCR训练扩展到特定的单词列表,python,string,image-processing,ocr,tesseract,Python,String,Image Processing,Ocr,Tesseract,我对OCR和Tesseract都是新手到目前为止，我有一个工作脚本，可以从图像中提取相当好的文本我的疑问是：是否可以训练tesseract只检索某种字典文件中的单词/字符例如，我有一个包含大量人名的.txt文件，我想训练Tesseract“SONIA”不是“50NlA”，而“YANNICK”不是“VANNlD”，等等如果它有一个所有可能的名字列表，它将能够提供更好的准确性？如果原始图像是一个包含大量人名和其他有关该人名的信息的文本，但我只想从ocr检索人名而忽略“嘈杂信息”，我该怎么办？

我对OCR和Tesseract都是新手

到目前为止，我有一个工作脚本，可以从图像中提取相当好的文本

我的疑问是：是否可以训练tesseract只检索某种字典文件中的单词/字符

例如，我有一个包含大量人名的.txt文件，我想训练Tesseract“SONIA”不是“50NlA”，而“YANNICK”不是“VANNlD”，等等

如果它有一个所有可能的名字列表，它将能够提供更好的准确性？如果原始图像是一个包含大量人名和其他有关该人名的信息的文本，但我只想从ocr检索人名而忽略“嘈杂信息”，我该怎么办？对不起，如果这是一个愚蠢的问题

我已经阅读了本手册，并创建了eng.user-words和bazaar文件。。。下一步该怎么办？因为它给了我同样的输出

非常感谢您的时间和耐心。

基本上，每当您遇到“50NlA”时，您都希望将其存储为“SONIA”（已经过培训），对吗？我想是的，因为我有一个正确的名字列表！。。。我在这里读过关于集市的文章，但没有很好地理解它。这是一个类似的问题。你可以做的是，你可以用你的单词训练你的数据，但在检查的同时，你可以根据单词的Levenshtein距离来比较它们（以测量两个单词的相似程度）。如果您发现相似性，请继续使用训练数据中的单词，否则请更新它。阅读更多关于Levenshtein distance的信息：@InêsMartins我认为在这种情况下，你不会有任何真正好的可能性。建议的Levenshtein距离可能是最好的。