Indexing 如何排除非英语页面?

Indexing 如何排除非英语页面?,indexing,nutch,Indexing,Nutch,我想知道是否有一种简单的机制将非英语页面排除在索引过程之外?例如,dmoz种子URL列表包含多种语言的维基百科页面,它们是排除的主要候选 有什么提示吗?你有没有任何url模式可以被所有英文页面所遵循? 维基百科的url中有“en”这样的英文名称 。对于其他语言,它在url中没有en,例如 如果您可以定义它,那么在$NUTCH_CONF_DIR/regex-urlfilter.txt文件中添加regex规则就很容易了,这样就可以包括具有英语模式的页面,并丢弃其他页面。您是否有任何url模式可以

我想知道是否有一种简单的机制将非英语页面排除在索引过程之外?例如,dmoz种子URL列表包含多种语言的维基百科页面,它们是排除的主要候选


有什么提示吗?

你有没有任何url模式可以被所有英文页面所遵循? 维基百科的url中有“
en
”这样的英文名称

。对于其他语言,它在url中没有
en
,例如


如果您可以定义它,那么在$NUTCH_CONF_DIR/regex-urlfilter.txt文件中添加regex规则就很容易了,这样就可以包括具有英语模式的页面,并丢弃其他页面。

您是否有任何url模式可以跟随所有英语页面? 维基百科的url中有“
en
”这样的英文名称

。对于其他语言,它在url中没有
en
,例如


如果您可以定义它,那么在$NUTCH_CONF_DIR/regex-urlfilter.txt文件中添加regex规则就很容易了,这样就可以包含具有英语模式的页面,并丢弃其他页面。

这就是问题所在。语言基于内容,而不是url。可能要写一个插件…这就是问题所在。语言基于内容,而不是url。可能要写一个插件。。。