Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/image-processing/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/mercurial/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Image processing 如何从OCR输出中分离不必要的文本?_Image Processing_Nltk_Tesseract - Fatal编程技术网

Image processing 如何从OCR输出中分离不必要的文本?

Image processing 如何从OCR输出中分离不必要的文本?,image-processing,nltk,tesseract,Image Processing,Nltk,Tesseract,我正在使用tesseract Java库。为了从食品封面上提取文本,我试图从中提取食品名称。由于食品的封面在食品名称上有时髦的字体,并且没有常见的图案,因此很难只识别食品的名称 但不管怎么说,它的输出是这样的 a B= a ON V4 3 L oie an . wp PA ae Heeses Dixy Mt at Se ee BMP gp Cie 2) a \\ en ee IS A ANT IR AGU ; LELLL CORN PUFFS ARES aad aise NET WT 1 LB

我正在使用tesseract Java库。为了从食品封面上提取文本,我试图从中提取食品名称。由于食品的封面在食品名称上有时髦的字体,并且没有常见的图案,因此很难只识别食品的名称

但不管怎么说,它的输出是这样的

a B= a
ON V4 3
L oie an
. wp
PA ae
Heeses
Dixy Mt at Se ee
BMP gp Cie 2) a
\\ en ee IS A
ANT
IR AGU ; LELLL
CORN PUFFS ARES aad
aise
NET WT 1 LB 4.7 OZ (20.7 0Z) (5869) © Prater`
不必要的文本将被删除
a B=a在V4 3上运行。wp PA ae
和其他类似的字符以及
玉米粉扑区域
是食品名称或有意义的文本


因此,我提出了将输出与食品名称数据集进行比较的想法,并从输出字符串中获取食品名称。使用NLTK有什么方法可以做到这一点吗?

首先,如何定义“有意义的”文本?你叫什么“食物名”??