Marklogic MarkMail预览

Marklogic MarkMail预览,marklogic,Marklogic,任何人都可以在其附件软件中共享MarkLogic用于为附件生成预览图像的软件吗?它似乎在办公室文件方面也做得很好。我尝试将OpenOffice转换为PDF格式,然后用PDF格式为每个页面生成图像,但转换效果不佳,尤其是在文档中嵌入图像时 我试图创建一个CPF任务,将文档(所有类型或最常用的类型)转换为单个页面的图像(如果存在)。事实证明,Office文档尤其是Excel和PPT很麻烦。我还想保留从文件中提取的文本的页码。。还有其他的东西,比如标题,页眉,页脚等等。。因此,在编写代码片段时,我可以

任何人都可以在其附件软件中共享MarkLogic用于为附件生成预览图像的软件吗?它似乎在办公室文件方面也做得很好。我尝试将OpenOffice转换为PDF格式,然后用PDF格式为每个页面生成图像,但转换效果不佳,尤其是在文档中嵌入图像时

我试图创建一个CPF任务,将文档(所有类型或最常用的类型)转换为单个页面的图像(如果存在)。事实证明,Office文档尤其是Excel和PPT很麻烦。我还想保留从文件中提取的文本的页码。。还有其他的东西,比如标题,页眉,页脚等等。。因此,在编写代码片段时,我可以使用这些标记来突出显示(实际上,我想做的是markmail的工作:)


任何建议都会非常有用。

我们在MarkMail.org上所做的是使用外部“无头”OpenOffice.org流程将每个Office文件格式“打印”为PDF。然后我们使用从每个页面生成图像和缩略图。如果您在这一步中遇到问题,可能是因为您使用的是ImageMagick,我们发现它不如PDF2Image强大

我们使用MarkLogic的internal
xdmp:pdf convert
捕获pdf每页上的文本。我们将提取的文本嵌入到电子邮件文档中以使其可搜索,并将URI嵌入到各种二进制文件中

我们使用Java加载器来驱动流程(使用相当复杂的Java类来驱动OpenOffice.org)。我们注意到OpenOffice.org有时会陷入困境,所以我们也有一个外部监控过程,当这种情况发生时,它会启动OOo。加载OpenOffice.org邮件列表是一个特别的挑战,因为列表中满是写着“嘿,附件导致OpenOffice.org大问题”的人。是的

我们没有使用CPF。所有电子邮件都是通过相同的Java管道加载的,因此不需要

我们学到了一些有趣的东西:现在Java加载程序将文件“推”到OpenOffice.org进行转换。更好的方法是先加载邮件,然后让客户端处理轮询需要处理Office文件的新邮件。拉模式会使OpenOffice.org随时可用变得不那么重要。它还可以使改进管道后重新运行过去的处理变得更容易,就像OpenOffice.org升级后一样


总而言之,我们对这个系统很满意。希望这对您有所帮助。

非常感谢您提供的信息。。我使用相同的机制转换为pdf,但我注意到它在PPT和Excel中的表现不正常。。它会放松格式,有时还会将文本放在错误的位置。。你遇到过同样的情况吗?xdmp:pdf隐藏,将保留页码等。。什么时候提取文本?你是说OpenOffice.org做得不对?我们已经取得了很好的成功,但您的问题可能是我们从未尝试过的pptx和xlsx文件,因为它们是在我们上线后添加到OOO3.x中的。如果您认为需要Java文件来驱动该过程,请在twitter上以与此处相同的句柄向我发送消息。pdf转换可以保留页码,是的。如果您有问题,需要示例代码,请给我留言。