Regex 配置LucidWorks包含路径以仅对某些文件类型进行爬网_Regex_Web Crawler_Lucidworks

Regex 配置LucidWorks包含路径以仅对某些文件类型进行爬网

regex web-crawler

Regex 配置LucidWorks包含路径以仅对某些文件类型进行爬网,regex,web-crawler,lucidworks,Regex,Web Crawler,Lucidworks,我正在尝试将LucidWorks web数据源配置为仅索引某些文件类型。但是，当我将Include path设置为*\.html仅爬网.html文件（作为一个简化示例）时，它只会为顶级文件夹编制索引。爬网深度设置为-1，当我将Include path留空时，它会按预期爬网整个子树我看了他们的文档，找了，找不到*\.html不起作用的原因，因为*应该匹配任何字符。在校对问题时，我想到了正确的解决方案。把它贴在这里给后人看正在爬网的内容是一个文件共享，因此它依赖于web服务器的目录列表，该列表

我正在尝试将LucidWorks web数据源配置为仅索引某些文件类型。但是，当我将Include path设置为

*\.html

仅爬网.html文件（作为一个简化示例）时，它只会为顶级文件夹编制索引。爬网深度设置为

-1

，当我将Include path留空时，它会按预期爬网整个子树

我看了他们的文档，找了，找不到

*\.html

不起作用的原因，因为

应该匹配任何字符。

在校对问题时，我想到了正确的解决方案。把它贴在这里给后人看

正在爬网的内容是一个文件共享，因此它依赖于web服务器的目录列表，该列表已被过滤掉，因为它没有.html扩展名。因此，只需将

*/

添加到Include路径即可解决问题