从PDF中提取ToUnicode表_Pdf - Fatal编程技术网

从PDF中提取ToUnicode表

pdf

从PDF中提取ToUnicode表,pdf,Pdf,有人能提出一种从PDF中提取ToUnicode表的简单实现方法吗？我可以使用pdfextract从mupdf中提取字体，现在我正在寻找一种方法来提取这些字体的ToUnicode表。您可以修改pdfextract来提取ToUnicode cmap（而不是表，cmap）您可以查看savefont中的代码并添加如下内容： obj = fz_dict_gets(dict, "ToUnicode"); if (obj) { stream = obj; } 如果有ToUnicode（不需要），那

有人能提出一种从PDF中提取ToUnicode表的简单实现方法吗？我可以使用pdfextract从mupdf中提取字体，现在我正在寻找一种方法来提取这些字体的ToUnicode表。

您可以修改pdfextract来提取ToUnicode cmap（而不是表，cmap）

您可以查看savefont中的代码并添加如下内容：

obj = fz_dict_gets(dict, "ToUnicode");
if (obj)
{
    stream = obj;
}

如果有ToUnicode（不需要），那么您可以以类似于字体流写入文件的方式转储流

obj = fz_dict_gets(dict, "ToUnicode");
if (obj)
{
    stream = obj;
        buf = fz_new_buffer(0);

        error = pdf_load_stream(&buf, xref, fz_to_num(stream), fz_to_gen(stream));
        if (error)
        die(error);
            /* Do something with the data */
    }

BUF>数据（大小BUF-> LEN）将包含CMAP，您可以写入文件或任何东西。

这是PoxEx或MUPDF开发者将考虑添加/包含为“代码”特性的“官方”特性MutoOL提取< /代码>？如果其他人想要编写代码，可能是的，它似乎有一定的价值。开发人员目前没有时间。呵呵。。。在我看来，非编码人员似乎已经在这个答案中找到了代码：-）缺少的是标记为“对数据做点什么”的注释。当然，这是最难的部分。。。。。