Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/cplusplus/148.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
PoDoFo从pdf中提取文本+坐标 我已经尝试了一段时间,使用PodoFo C++库来提取文本和行,并用它们各自的坐标来提取。但我没有办法这么做_C++_Pdf_Coordinates_Podofo - Fatal编程技术网

PoDoFo从pdf中提取文本+坐标 我已经尝试了一段时间,使用PodoFo C++库来提取文本和行,并用它们各自的坐标来提取。但我没有办法这么做

PoDoFo从pdf中提取文本+坐标 我已经尝试了一段时间,使用PodoFo C++库来提取文本和行,并用它们各自的坐标来提取。但我没有办法这么做,c++,pdf,coordinates,podofo,C++,Pdf,Coordinates,Podofo,这就是我到目前为止所做的: #include <iostream> #include <stdio.h> #include <vector> #include <podofo/podofo.h> using namespace PoDoFo; using namespace std; int main( int argc, char* argv[] ) { const char* filename = "hello.pdf"; P

这就是我到目前为止所做的:

#include <iostream>
#include <stdio.h>
#include <vector>
#include <podofo/podofo.h>
using namespace PoDoFo;
using namespace std;

int main( int argc, char* argv[] )
{
    const char* filename = "hello.pdf";
    PdfVecObjects *x = new PdfVecObjects();
    PdfParser parser(x, filename);
    parser.ParseFile("hello.pdf");

    for (TIVecObjects obj = x->begin(); obj != x->end(); obj++){
        PdfObject * a = x->RemoveObject(obj);
        // THIS IS MY PROBLEM VVVVVVVVVV
        cout << a->Reference().ToString() << endl;
    }

    return 0;
}
我想打印出一个物体的坐标,如果是直线或文本。如果是文本,我也希望能够打印出文本。有谁比我更了解这个库吗?我能做些什么来解决这个问题?

这将向您展示如何提取文本

要获取文本定位信息,还必须处理以下命令:

Tc、Tw、Tz、TL、T*、Tr和Tm

您肯定需要从Adobe下载以获得所有详细信息。有一章专门讨论文本处理。这是非常值得你的时间打印出这一章,因为你会参考它很多。你需要知道的一切都在里面,但并不总是显而易见的

您还需要使用一些线性代数。不过没什么太复杂的

由于有许多方法可以实现相同的结果,因此彻底实现所有命令非常重要,即使您要处理的文档似乎不需要某些功能。例如:我遇到一个文档,该文档将所有文本大小设置为一个点,这会中断我的所有计算,直到我意识到它正在使用文本比例因子来设置实际的字体大小。

这将向您展示如何提取文本

要获取文本定位信息,还必须处理以下命令:

Tc、Tw、Tz、TL、T*、Tr和Tm

您肯定需要从Adobe下载以获得所有详细信息。有一章专门讨论文本处理。这是非常值得你的时间打印出这一章,因为你会参考它很多。你需要知道的一切都在里面,但并不总是显而易见的

您还需要使用一些线性代数。不过没什么太复杂的


由于有许多方法可以实现相同的结果,因此彻底实现所有命令非常重要,即使您要处理的文档似乎不需要某些功能。例如:我遇到一个文档,该文档将所有文本大小设置为一个点,这就放弃了我的所有计算,直到我意识到它正在使用文本比例因子来设置实际的字体大小。

使用PoDoFo tools podofotxtextract,它为您提供了PoDoFo软件包的x,y坐标工具文件夹。从Pdf中提取文本

使用PoDoFo工具podofoextract,它为您提供PoDoFo包的x,y坐标工具文件夹。从Pdf中提取文本

我知道这篇文章很老,但我对解决方案感兴趣,如何获得文本位置@Dara JavaherianHaha没人,对不起。我真诚的建议是放弃——这真是一件乱七八糟的事情。你最好使用OCR来做你需要的事情。我知道这篇文章很旧,但我对解决方案感兴趣,如何获得文本位置@Dara JavaherianHaha没人,对不起。我真诚的建议是放弃——这真是一件乱七八糟的事情。你最好使用OCR来做你需要的事情。请更详细地解释你的答案,以便更容易理解。请更详细地解释你的答案,以便更容易理解
DEBUG: Size=12
DEBUG: Reading numbers: 0 12
DEBUG: Reading XRef Section: 0 with 12 Objects.
DEBUG: Size=12
DEBUG: Reading numbers: 0 12
DEBUG: Reading XRef Section: 0 with 12 Objects.
1 0 R
2 0 R
3 0 R
4 0 R
5 0 R
6 0 R
7 0 R
8 0 R
9 0 R
10 0 R
11 0 R