C++ Tesseract OCR无法将文本正确拆分为不同的结果集

C++ Tesseract OCR无法将文本正确拆分为不同的结果集,c++,ocr,tesseract,C++,Ocr,Tesseract,我需要你的帮助。我正试图把下面图片上的电子邮件作为单独的结果和它们各自的边界框。不知何故,Tesseract OCR不会将它们识别为单独的行,而是将它们作为单个结果返回 电流输出-一块 Top: 182, Bottom: 512, Left: 533, Right: 852 - BCF6CC517E7642BBB21AAF2068E54C28 - Test D4852831D8CA439EB9D98B54629D1840 - Test 8DFFDO6FA3B44989B224DABDD9292

我需要你的帮助。我正试图把下面图片上的电子邮件作为单独的结果和它们各自的边界框。不知何故,Tesseract OCR不会将它们识别为单独的行,而是将它们作为单个结果返回

电流输出-一块

Top: 182, Bottom: 512, Left: 533, Right: 852 - 
BCF6CC517E7642BBB21AAF2068E54C28 - Test
D4852831D8CA439EB9D98B54629D1840 - Test
8DFFDO6FA3B44989B224DABDD9292B3E - Test
10E1D83F0D834000AF7BDSDEA48442E8 - Test
6FOA122825AA42159FDEESEBFFAC279B - Test
E719274DA1CE46ADASBDB659812ED684 - Test
ES18EE9D7D7B4AA3ABAT81523F748B24 - Test
?0304b4b-ba1d-4897-8ebe-20bcc3930201 - Test
2ebad2h1-c385-4d84-96c7-bc9082141e1c - Test
所需输出-每个GUID有多个块

Top: 182, Bottom: 210, Left: 533, Right: 852 -
BCF6CC517E7642BBB21AAF2068E54C28 - Test
Top: 210, Bottom: 230, Left: 533, Right: 852 -
D4852831D8CA439EB9D98B54629D1840 - Test
Top: 230, Bottom: 250, Left: 533, Right: 852 -
8DFFDO6FA3B44989B224DABDD9292B3E - Test
...
我已经尝试了大多数OcrEngineMode和PageSegmentationMode。 没有一件事是正确的。 我还将图像从96 DPI缩放到300 DPI。没有帮助。 我还查阅了文档,没有找到解决方案

我正在使用Tesseract 4

提前感谢您的时间和帮助


迭代结果时,应将PageIterator级别设置为
RIL_TEXTLINE,以便将结果段落拆分为单独的行

  var resultIterator = tessBaseAPI.GetIterator();

  var pageIteratorLevel = PageIteratorLevel.RIL_TEXTLINE;

你在使用其他图像处理吗?我只是在缩放图像。无论有没有,都没有大的变化。请您编辑问题以粘贴预期的输出。我可以推断,您基本上希望每个电子邮件行都有一个带有边框的数组,对吗?是的,先生,这就是我想要的,我需要每个电子邮件边框,以便我可以通过编程方式单击它