Xquery 如何在Marklogic中搜索文档中的单词序列?

Xquery 如何在Marklogic中搜索文档中的单词序列?,xquery,marklogic,Xquery,Marklogic,我在xquery中有一系列这样的词,还有,事务,搜索,业务。现在我想在pdf、doc、ppt等文档以及xml文件中搜索这个序列。如果任何单词在任何文档中匹配,则应返回该文档的URI。使用xquery在Marklogic中执行此操作最有效的方法是什么?听起来第一个问题是从用户提供的字符串中标记单词。这里有一个使用cts的简单方法:标记化 一旦有了这些单词,就可以将它们与cts:word查询构造函数和cts:search一起使用,或者可以扩展高级搜索API来处理这个问题:可能使用search:res

我在xquery中有一系列这样的词,还有,事务,搜索,业务。现在我想在pdf、doc、ppt等文档以及xml文件中搜索这个序列。如果任何单词在任何文档中匹配,则应返回该文档的URI。使用xquery在Marklogic中执行此操作最有效的方法是什么?

听起来第一个问题是从用户提供的字符串中标记单词。这里有一个使用cts的简单方法:标记化

一旦有了这些单词,就可以将它们与cts:word查询构造函数和cts:search一起使用,或者可以扩展高级搜索API来处理这个问题:可能使用search:resolve

当然,任何二进制内容pdf、doc、ppt都需要先进行文档转换:

cts:tokenize('now is the time')[. instance of cts:word]