Marklogic中的文件类型方面
背景:我在Marklogic生产数据库中加载了大约500k个文档。我们有一个使用CPF的处理管道,用于文档摄取。我存储文档的MIME类型 我需要有基于文件类型的方面。我不能将MIME类型用于刻面,因为普通用户不理解MIME类型,他们更熟悉扩展(Excel、Word、Jpeg等)。。我的问题是多个MIME类型可以映射到一个文件类型,例如:-Excel有10个或更多MIME类型,我想将它们全部映射到Excel 以下是我提出的关于如何实施的两种可能性。我想知道是否还有其他好的方法来实现这一点Marklogic中的文件类型方面,marklogic,marklogic-8,Marklogic,Marklogic 8,背景:我在Marklogic生产数据库中加载了大约500k个文档。我们有一个使用CPF的处理管道,用于文档摄取。我存储文档的MIME类型 我需要有基于文件类型的方面。我不能将MIME类型用于刻面,因为普通用户不理解MIME类型,他们更熟悉扩展(Excel、Word、Jpeg等)。。我的问题是多个MIME类型可以映射到一个文件类型,例如:-Excel有10个或更多MIME类型,我想将它们全部映射到Excel 以下是我提出的关于如何实施的两种可能性。我想知道是否还有其他好的方法来实现这一点 我有一个
此方法的缺点是,在执行搜索查询时,我需要通过自定义约束扩展搜索字符串,以便将文件类型转换为每个单独的MIME类型
此选项的缺点是,我需要将文件类型添加到所有现有的500k文档中,在此之前,我需要禁用CPF或添加某种逻辑,在这些500k文档上触发CPF时,我告诉不要采取任何操作。因为它是生产数据库,所以我无权禁用CPF以接收新文档
还有哪一个(1或2)是更好的方法?我想知道是否有比这些更好的选项。您准确地列出了这两个选项。在查询时执行,或在索引时执行。你准确地列出了优点和缺点。我的建议:如果它足够快,可以在查询时执行,并且可以接受更高级代码的维护,那么就这样做。否则,将知识放入文档。仅使用500k个文档,我认为查询时间将足够快。为此,您可以利用此分组约束: 您可以使用安装和部署它。之后,您可以在搜索选项中使用以下内容:
<constraint name="Attachment-Type">
<custom>
<parse apply="parse-structured" ns="http://marklogic.com/grouping-constraint" at="/ext/mlpm_modules/ml-constraints/grouping-constraint.xqy"/>
<start-facet apply="start" ns="http://marklogic.com/grouping-constraint" at="/ext/mlpm_modules/ml-constraints/grouping-constraint.xqy"/>
<finish-facet apply="finish" ns="http://marklogic.com/grouping-constraint" at="/ext/mlpm_modules/ml-constraints/grouping-constraint.xqy"/>
<facet-option>limit=5</facet-option>
<facet-option>frequency-order</facet-option>
<facet-option>descending</facet-option>
<facet-option>any</facet-option>
</custom>
<annotation>
<range type="xs:string" facet="true" collation="http://marklogic.com/collation//S1">
<element ns="http://my-namespace.com" name="mime-type"/>
</range>
<config>
<group label="Audio">
<match pattern="audio/*"/>
</group>
<group label="Video">
<match pattern="video/*"/>
<match pattern="application/vnd.rn-realmedia"/>
</group>
<group label="Documents">
<match pattern="application/msword"/>
<match pattern="application/vnd.wordperfect"/>
<match pattern="application/x-wordstar"/>
<match pattern="application/pdf"/>
<match pattern="application/postscript"/>
<match pattern="application/rtf"/>
<match pattern="application/x-xywrite"/>
<match pattern="application/x-mass11"/>
</group>
<group label="Spreadsheets">
<match pattern="application/vnd.ms-excel"/>
</group>
<group label="Presentations">
<match pattern="application/vnd.ms-powerpoint"/>
</group>
<show-remainder label="Other"/>
</config>
</annotation>
</constraint>
极限=5
频率顺序
下降的
任何
但是,性能会随着您提供的组和模式的数量以及文档总数的增加而降低。一旦文档总数增长超过数百万,这可能需要相对较长的搜索解析时间。在这种情况下,你最好提前计算分组
嗯如果你担心表现,更愿意预先计算,考虑利用CPF,而不是对抗它。确保您的CPF管道能够检测到不需要做任何工作的情况(以防止添加两次之类的内容),并让它只填充缺少的部分。一旦您确定CPF是以这种方式配置的,并且添加了添加文件类型的逻辑,只需使用
xdmp:document insert($uri,doc($uri),xdmp:document get permissions($uri),…)
重新插入文件即可
嗯