MarkLogic-xdmp中的慢度:文档筛选器

MarkLogic-xdmp中的慢度:文档筛选器,marklogic,Marklogic,使用ML版本“8.0-8” xdmp:document-filter()非常慢。 对于2MB文件,过滤内容需要2.0秒 注: PDF文档主要包含文本数据 函数的第二个参数是() 请帮助我,有什么我需要知道,使其工作更快,或有任何其他API是更快 更新: 我有一个MLRESTAPI。它将采用二进制格式的1 XML和1 PDF 然后,它将使用xdmp:document-filter()从PDF中提取内容,并使用mem函数将其插入XML 然后,XML和PDF都将插入数据库。xdmp:documen

使用ML版本“8.0-8”

xdmp:document-filter()
非常慢。 对于2MB文件,过滤内容需要2.0秒

注:

  • PDF文档主要包含文本数据
  • 函数的第二个参数是
    ()
请帮助我,有什么我需要知道,使其工作更快,或有任何其他API是更快

更新:

我有一个MLRESTAPI。它将采用二进制格式的
1 XML
1 PDF

然后,它将使用
xdmp:document-filter()
从PDF中提取内容,并使用
mem
函数将其插入XML

然后,XML和PDF都将插入数据库。

xdmp:document-filter()
速度取决于文档大小,因为它以
XHTML
格式返回元数据和文本


您可以使用MarkLogic的CPF功能,该功能将在后端执行这些操作。

可能与我不能使用information studio重复。在我的例子中,有一个ML API,它将采用1个xml和1个pdf。它将从pdf中提取内容并将其放入xml中,然后将xml和pdf插入数据库。为了从pdf中获取内容,我使用了
xdmp:documentfilter
。在这种情况下,我能做些什么来加快速度?@MadsHansen我已经更新了问题,请看一看。@wst我已经更新了问题,请看一看2 MB pdf,需要2秒钟。这是预期的行为吗?注意:Pdf仅包含文本数据。是的,它是。它还将其转换为XHTML。好的,谢谢Navin。