Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/matlab/13.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Matlab 从具有C++;密码 我有一个C++程序存储在文本图像中。我需要的是从文本图像中提取符号、字母数字和标记,以及它们的尺寸。此处尺寸表示文本图像中的起始行、结束行、起始列、结束列像素数。这里我举一个例子: 如果存在一个带有C++代码的文本图像(图像是*.pNG格式), #包括 使用名称空间std;_Matlab_Token_Ocr - Fatal编程技术网

Matlab 从具有C++;密码 我有一个C++程序存储在文本图像中。我需要的是从文本图像中提取符号、字母数字和标记,以及它们的尺寸。此处尺寸表示文本图像中的起始行、结束行、起始列、结束列像素数。这里我举一个例子: 如果存在一个带有C++代码的文本图像(图像是*.pNG格式), #包括 使用名称空间std;

Matlab 从具有C++;密码 我有一个C++程序存储在文本图像中。我需要的是从文本图像中提取符号、字母数字和标记,以及它们的尺寸。此处尺寸表示文本图像中的起始行、结束行、起始列、结束列像素数。这里我举一个例子: 如果存在一个带有C++代码的文本图像(图像是*.pNG格式), #包括 使用名称空间std;,matlab,token,ocr,Matlab,Token,Ocr,我必须编写一个matlab代码来读取上面的图像,并生成以下数据集: +-------------+-----------+-----------+---------+--------------+------------+ | Line Number | Item | Start_Row | End_Row | Start_Column | End_Column | +-------------+-----------+-----------+---------+-----------

我必须编写一个matlab代码来读取上面的图像,并生成以下数据集:

+-------------+-----------+-----------+---------+--------------+------------+
| Line Number |   Item    | Start_Row | End_Row | Start_Column | End_Column |
+-------------+-----------+-----------+---------+--------------+------------+
|           1 | #         | ---       | ---     | ---          | ---        |
|           1 | include   | ---       | ---     | ---          | ---        |
|           1 | <         | ---       | ---     | ---          | ---        |
|           1 | stdio.h   | ---       | ---     | ---          | ---        |
|           1 | >         | ---       | ---     | ---          | ---        |
|           2 | using     | ---       | ---     | ---          | ---        |
|           2 | namespace | ---       | ---     | ---          | ---        |
|           2 | std       | ---       | ---     | ---          | ---        |
|           2 | ;         | ---       | ---     | ---          | ---        |
+-------------+-----------+-----------+---------+--------------+------------+
+-------------+-----------+-----------+---------+--------------+------------+
|行号|项目|开始|行|结束|行|开始|列|结束|列|
+-------------+-----------+-----------+---------+--------------+------------+
|           1 | #         | ---       | ---     | ---          | ---        |
|1 |包括|--|--|--|--|
|           1 | <         | ---       | ---     | ---          | ---        |
|1 | stdio.h |------------------|
|           1 | >         | ---       | ---     | ---          | ---        |
|2 |使用|--|--|--|--|
|2 |名称空间|--|--|--|--|
|2 |标准|--|--|--|--|
|           2 | ;         | ---       | ---     | ---          | ---        |
+-------------+-----------+-----------+---------+--------------+------------+
我觉得整个目标可以分为三个部分:第一,文本图像的分词。第二,坐标的识别。第三,行号的计数

对于前两个目标,我使用了Tesseract OCR,它可以识别单词及其各自的坐标。下面是我提取单词和相应坐标的方法。[我已手动将图像从ONG格式转换为TIF格式,如tesseract手册中所述]

<Path to Tesseract-OCR folder>\tesseract.exe "image.tif" output \*extracts words*\
<Path to Tesseract-OCR folder>\tesseract.exe "image.tif" output makebox \*extracts word dimensions*\
\tesseract.exe“image.tif”输出\*提取单词*\
\tesseract.exe“image.tif”输出makebox\*提取单词尺寸*\
作为输出,我将把单词提取到一个名为output.txt的文本文件中。但是,makebox命令正在查找图像中每个字符的坐标。然而,我需要找到每个单词的坐标(在本例中,分别是符号和标记)

所以,我的问题是如何生成这样一个文本文件,它将分别显示每个符号、字母数字和标记的坐标,而不是每个字符

tesseract中是否有任何选项可以直接从图像文件中提取每个单词及其坐标,而不是每个字符。我怀疑我是否需要一个词法分析器来执行此操作。如果是,那么我如何将其与tesseract一起使用


我就是这样处理这个问题的。如果有任何其他简单的方法来实现目标,那么请分享给我。谢谢。

欢迎来到Stack Overflow。这不是一个代码编写站点,特别是对于这样一个大型项目。以“我需要…”开头的问题没有表现出你自己的任何尝试,在这里不会受到热烈欢迎。你应该把你尝试过的东西贴出来,并解释你的困境。这样你就更有可能得到帮助。非常感谢你对我的指导。我已经更新了这个问题,以及我用来解决这个问题的程序。除此之外,我还提到了我面临的问题。
<Path to Tesseract-OCR folder>\tesseract.exe "image.tif" output \*extracts words*\
<Path to Tesseract-OCR folder>\tesseract.exe "image.tif" output makebox \*extracts word dimensions*\