Indexing 如何排除非英语页面?
我想知道是否有一种简单的机制将非英语页面排除在索引过程之外?例如,dmoz种子URL列表包含多种语言的维基百科页面,它们是排除的主要候选Indexing 如何排除非英语页面?,indexing,nutch,Indexing,Nutch,我想知道是否有一种简单的机制将非英语页面排除在索引过程之外?例如,dmoz种子URL列表包含多种语言的维基百科页面,它们是排除的主要候选 有什么提示吗?你有没有任何url模式可以被所有英文页面所遵循? 维基百科的url中有“en”这样的英文名称 。对于其他语言,它在url中没有en,例如 如果您可以定义它,那么在$NUTCH_CONF_DIR/regex-urlfilter.txt文件中添加regex规则就很容易了,这样就可以包括具有英语模式的页面,并丢弃其他页面。您是否有任何url模式可以
有什么提示吗?你有没有任何url模式可以被所有英文页面所遵循? 维基百科的url中有“
en
”这样的英文名称
。对于其他语言,它在url中没有en
,例如
如果您可以定义它,那么在$NUTCH_CONF_DIR/regex-urlfilter.txt文件中添加regex规则就很容易了,这样就可以包括具有英语模式的页面,并丢弃其他页面。您是否有任何url模式可以跟随所有英语页面? 维基百科的url中有“
en
”这样的英文名称
。对于其他语言,它在url中没有en
,例如
如果您可以定义它,那么在$NUTCH_CONF_DIR/regex-urlfilter.txt文件中添加regex规则就很容易了,这样就可以包含具有英语模式的页面,并丢弃其他页面。这就是问题所在。语言基于内容,而不是url。可能要写一个插件…这就是问题所在。语言基于内容,而不是url。可能要写一个插件。。。