Image processing 如何从OCR输出中分离不必要的文本?
我正在使用tesseract Java库。为了从食品封面上提取文本,我试图从中提取食品名称。由于食品的封面在食品名称上有时髦的字体,并且没有常见的图案,因此很难只识别食品的名称 但不管怎么说,它的输出是这样的Image processing 如何从OCR输出中分离不必要的文本?,image-processing,nltk,tesseract,Image Processing,Nltk,Tesseract,我正在使用tesseract Java库。为了从食品封面上提取文本,我试图从中提取食品名称。由于食品的封面在食品名称上有时髦的字体,并且没有常见的图案,因此很难只识别食品的名称 但不管怎么说,它的输出是这样的 a B= a ON V4 3 L oie an . wp PA ae Heeses Dixy Mt at Se ee BMP gp Cie 2) a \\ en ee IS A ANT IR AGU ; LELLL CORN PUFFS ARES aad aise NET WT 1 LB
a B= a
ON V4 3
L oie an
. wp
PA ae
Heeses
Dixy Mt at Se ee
BMP gp Cie 2) a
\\ en ee IS A
ANT
IR AGU ; LELLL
CORN PUFFS ARES aad
aise
NET WT 1 LB 4.7 OZ (20.7 0Z) (5869) © Prater`
不必要的文本将被删除
a B=a在V4 3上运行。wp PA ae
和其他类似的字符以及玉米粉扑区域
是食品名称或有意义的文本
因此,我提出了将输出与食品名称数据集进行比较的想法,并从输出字符串中获取食品名称。使用NLTK有什么方法可以做到这一点吗?首先,如何定义“有意义的”文本?你叫什么“食物名”??