Regex 配置LucidWorks包含路径以仅对某些文件类型进行爬网

Regex 配置LucidWorks包含路径以仅对某些文件类型进行爬网,regex,web-crawler,lucidworks,Regex,Web Crawler,Lucidworks,我正在尝试将LucidWorks web数据源配置为仅索引某些文件类型。但是,当我将Include path设置为*\.html仅爬网.html文件(作为一个简化示例)时,它只会为顶级文件夹编制索引。爬网深度设置为-1,当我将Include path留空时,它会按预期爬网整个子树 我看了他们的文档,找了,找不到*\.html不起作用的原因,因为*应该匹配任何字符。在校对问题时,我想到了正确的解决方案。把它贴在这里给后人看 正在爬网的内容是一个文件共享,因此它依赖于web服务器的目录列表,该列表

我正在尝试将LucidWorks web数据源配置为仅索引某些文件类型。但是,当我将Include path设置为
*\.html
仅爬网.html文件(作为一个简化示例)时,它只会为顶级文件夹编制索引。爬网深度设置为
-1
,当我将Include path留空时,它会按预期爬网整个子树

我看了他们的文档,找了,找不到
*\.html
不起作用的原因,因为
*
应该匹配任何字符。

在校对问题时,我想到了正确的解决方案。把它贴在这里给后人看


正在爬网的内容是一个文件共享,因此它依赖于web服务器的目录列表,该列表已被过滤掉,因为它没有.html扩展名。因此,只需将
*/
添加到Include路径即可解决问题