Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/xml/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Marklogic中PDF到XML的转换_Xml_Pdf_Type Conversion_Marklogic - Fatal编程技术网

Marklogic中PDF到XML的转换

Marklogic中PDF到XML的转换,xml,pdf,type-conversion,marklogic,Xml,Pdf,Type Conversion,Marklogic,我们的文件系统中有一些PDF文件,这些文件通过MLCP加载到Marklogic服务器中。一旦接收到PDF,CPF将在启用默认转换的Marklogic中触发。这将导致PDF文件转换为XML(docbook格式)文件。PDF可能在页面末尾包含一个句子,文本的某些部分会溢出到下一页。问题是,当转换发生时,来自每个页面的文本保留在一个标记中,这意味着来自下一页的溢出文本将显示在一个单独的标记中。比如说“快棕色狐狸跳过懒狗”这句话。现在,“敏捷的棕色狐狸”出现在PDF的一页中,其余的“跳过懒狗”进入下一页

我们的文件系统中有一些PDF文件,这些文件通过MLCP加载到Marklogic服务器中。一旦接收到PDF,CPF将在启用默认转换的Marklogic中触发。这将导致PDF文件转换为XML(docbook格式)文件。PDF可能在页面末尾包含一个句子,文本的某些部分会溢出到下一页。问题是,当转换发生时,来自每个页面的文本保留在一个标记中,这意味着来自下一页的溢出文本将显示在一个单独的标记中。比如说“快棕色狐狸跳过懒狗”这句话。现在,“敏捷的棕色狐狸”出现在PDF的一页中,其余的“跳过懒狗”进入下一页。转换后,XML中会显示以下内容:

......
<para>The quick brown fox</para>
...... (some information about headers)
<para>jumps over the lazy dog</para>
。。。。。。
敏捷的棕色狐狸
...... (有关标题的一些信息)
跳过懒狗

有没有一种方法可以在转换过程中保持文本的连续性?

有两种方法。较难的前处理方式和较容易的后处理方式。 (1) 通过PDF配置文件。默认情况下,这是
转换器/cvtpdf
中的
PDFtoXHTML.cfg
安装的子目录。您可以创建自己的配置文件,并通过 将选项配置为
xdmp:pdf转换
。您要做的是在页面中添加一个裁剪框以裁剪出页面 页码、页眉/页脚等。其语法为:

[ANNOT PLAN]
0.Iceni Crop Box =1-# [341.15, 91.78, 259.87, 364.84];
[-- END --]
你怎么知道这个盒子的几何结构是什么?你可以从网站下载一个叫做双子座的工具 我不想这样做。只要您处理的所有文档都具有相同的几何图形,这就可以正常工作

(2) 通过docbook输出的后处理。页面的开始和结束在从PDF转换生成的XHTML中进行标记,该标记也会传播到Docbook。比如:

&amp;para>
  &amp;phrase id="pge03"> &amp;/phrase>
&amp;/para> &amp;para>
  &amp;phrase id="pgs04"> &amp;/phrase>
&amp;/para>
&amp;para/>
您可以运行某种样式表来查找此模式并删除页眉/页脚 附近的情报。它变得很棘手,因为你必须决定是否缝合相邻的线 页面周围的段落重新组合在一起,可能是基于样式信息。默认情况下 Docbook不会保留
XHTML
中的样式信息,但如果需要,您可以将其保存到 通过在Docbook步骤中将选项“保留样式”设置为false。查看Docbook管道。 (这来自安装目录中的
Installer/conversion/docbook pipeline.xml