Regex 配置LucidWorks包含路径以仅对某些文件类型进行爬网
我正在尝试将LucidWorks web数据源配置为仅索引某些文件类型。但是,当我将Include path设置为Regex 配置LucidWorks包含路径以仅对某些文件类型进行爬网,regex,web-crawler,lucidworks,Regex,Web Crawler,Lucidworks,我正在尝试将LucidWorks web数据源配置为仅索引某些文件类型。但是,当我将Include path设置为*\.html仅爬网.html文件(作为一个简化示例)时,它只会为顶级文件夹编制索引。爬网深度设置为-1,当我将Include path留空时,它会按预期爬网整个子树 我看了他们的文档,找了,找不到*\.html不起作用的原因,因为*应该匹配任何字符。在校对问题时,我想到了正确的解决方案。把它贴在这里给后人看 正在爬网的内容是一个文件共享,因此它依赖于web服务器的目录列表,该列表
*\.html
仅爬网.html文件(作为一个简化示例)时,它只会为顶级文件夹编制索引。爬网深度设置为-1
,当我将Include path留空时,它会按预期爬网整个子树
我看了他们的文档,找了,找不到*\.html
不起作用的原因,因为*
应该匹配任何字符。在校对问题时,我想到了正确的解决方案。把它贴在这里给后人看
正在爬网的内容是一个文件共享,因此它依赖于web服务器的目录列表,该列表已被过滤掉,因为它没有.html扩展名。因此,只需将
*/
添加到Include路径即可解决问题