从PDF中提取ToUnicode表

从PDF中提取ToUnicode表,pdf,Pdf,有人能提出一种从PDF中提取ToUnicode表的简单实现方法吗?我可以使用pdfextract从mupdf中提取字体,现在我正在寻找一种方法来提取这些字体的ToUnicode表。您可以修改pdfextract来提取ToUnicode cmap(而不是表,cmap) 您可以查看savefont中的代码并添加如下内容: obj = fz_dict_gets(dict, "ToUnicode"); if (obj) { stream = obj; } 如果有ToUnicode(不需要),那

有人能提出一种从PDF中提取ToUnicode表的简单实现方法吗?我可以使用pdfextract从mupdf中提取字体,现在我正在寻找一种方法来提取这些字体的ToUnicode表。

您可以修改pdfextract来提取ToUnicode cmap(而不是表,cmap)

您可以查看savefont中的代码并添加如下内容:

obj = fz_dict_gets(dict, "ToUnicode");
if (obj)
{
    stream = obj;
}
如果有ToUnicode(不需要),那么您可以以类似于字体流写入文件的方式转储流

obj = fz_dict_gets(dict, "ToUnicode");
if (obj)
{
    stream = obj;
        buf = fz_new_buffer(0);

        error = pdf_load_stream(&buf, xref, fz_to_num(stream), fz_to_gen(stream));
        if (error)
        die(error);
            /* Do something with the data */
    }

BUF>数据(大小BUF-> LEN)将包含CMAP,您可以写入文件或任何东西。

这是PoxEx或MUPDF开发者将考虑添加/包含为“代码”特性的“官方”特性MutoOL提取< /代码>?如果其他人想要编写代码,可能是的,它似乎有一定的价值。开发人员目前没有时间。呵呵。。。在我看来,非编码人员似乎已经在这个答案中找到了代码:-)缺少的是标记为“对数据做点什么”的注释。当然,这是最难的部分。。。。。