Image processing 如何从OCR输出中分离不必要的文本？_Image Processing_Nltk_Tesseract

Image processing 如何从OCR输出中分离不必要的文本？

image-processing

Image processing 如何从OCR输出中分离不必要的文本？,image-processing,nltk,tesseract,Image Processing,Nltk,Tesseract,我正在使用tesseract Java库。为了从食品封面上提取文本，我试图从中提取食品名称。由于食品的封面在食品名称上有时髦的字体，并且没有常见的图案，因此很难只识别食品的名称但不管怎么说，它的输出是这样的 a B= a ON V4 3 L oie an . wp PA ae Heeses Dixy Mt at Se ee BMP gp Cie 2) a \\ en ee IS A ANT IR AGU ; LELLL CORN PUFFS ARES aad aise NET WT 1 LB

我正在使用tesseract Java库。为了从食品封面上提取文本，我试图从中提取食品名称。由于食品的封面在食品名称上有时髦的字体，并且没有常见的图案，因此很难只识别食品的名称

但不管怎么说，它的输出是这样的

a B= a
ON V4 3
L oie an
. wp
PA ae
Heeses
Dixy Mt at Se ee
BMP gp Cie 2) a
\\ en ee IS A
ANT
IR AGU ; LELLL
CORN PUFFS ARES aad
aise
NET WT 1 LB 4.7 OZ (20.7 0Z) (5869) © Prater`

不必要的文本将被删除

a B=a在V4 3上运行。wp PA ae

和其他类似的字符以及

玉米粉扑区域

是食品名称或有意义的文本

因此，我提出了将输出与食品名称数据集进行比较的想法，并从输出字符串中获取食品名称。使用NLTK有什么方法可以做到这一点吗？

首先，如何定义“有意义的”文本？你叫什么“食物名”？？