Web crawler 如何为特定语言爬网

Web crawler 如何为特定语言爬网,web-crawler,common-crawl,Web Crawler,Common Crawl,我试图从乌兹别克语网页上收集所有可用的文本信息(尽可能多)(用于我的研究)。最好的方法是什么 我找到了常见的爬网,但不确定提取特定语言文本是否容易。一些门户在url中使用语言名称-即。。/gb/…-或作为参数-即。?lang=gb。他们还可以把它放在一些饼干里。Web浏览器应发送带有您在浏览器设置中设置的语言的标题,并且门户可以使用此信息。因此,每个门户都可以使用不同的方法。自2018年8月以来,通用的爬网存档使得查找特定语言的页面变得非常容易。每个月大约有300000个乌兹别克语页面()被爬网

我试图从乌兹别克语网页上收集所有可用的文本信息(尽可能多)(用于我的研究)。最好的方法是什么


我找到了常见的爬网,但不确定提取特定语言文本是否容易。

一些门户在url中使用语言名称-即。
。/gb/…
-或作为参数-即。
?lang=gb
。他们还可以把它放在一些饼干里。Web浏览器应发送带有您在浏览器设置中设置的语言的标题,并且门户可以使用此信息。因此,每个门户都可以使用不同的方法。自2018年8月以来,通用的爬网存档使得查找特定语言的页面变得非常容易。每个月大约有300000个乌兹别克语页面()被爬网。在和中有一些示例可以通过SQL和Spark按语言提取内容。一些门户使用url中的语言名称-ie.
。/gb/..
-或作为参数-ie.
?lang=gb
。他们还可以把它放在一些饼干里。Web浏览器应发送带有您在浏览器设置中设置的语言的标题,并且门户可以使用此信息。因此,每个门户都可以使用不同的方法。自2018年8月以来,通用的爬网存档使得查找特定语言的页面变得非常容易。每个月大约有300000个乌兹别克语页面()被爬网。在和中有一些示例可以通过SQL和Spark按语言提取内容。