Web crawler 如何为特定语言爬网_Web Crawler_Common Crawl

Web crawler 如何为特定语言爬网

web-crawler

Web crawler 如何为特定语言爬网,web-crawler,common-crawl,Web Crawler,Common Crawl,我试图从乌兹别克语网页上收集所有可用的文本信息（尽可能多）（用于我的研究）。最好的方法是什么我找到了常见的爬网，但不确定提取特定语言文本是否容易。一些门户在url中使用语言名称-即。。/gb/…-或作为参数-即。？lang=gb。他们还可以把它放在一些饼干里。Web浏览器应发送带有您在浏览器设置中设置的语言的标题，并且门户可以使用此信息。因此，每个门户都可以使用不同的方法。自2018年8月以来，通用的爬网存档使得查找特定语言的页面变得非常容易。每个月大约有300000个乌兹别克语页面（）被爬网

我试图从乌兹别克语网页上收集所有可用的文本信息（尽可能多）（用于我的研究）。最好的方法是什么

我找到了常见的爬网，但不确定提取特定语言文本是否容易。

一些门户在url中使用语言名称-即。

。/gb/…

-或作为参数-即。

？lang=gb

。他们还可以把它放在一些饼干里。Web浏览器应发送带有您在浏览器设置中设置的语言的标题，并且门户可以使用此信息。因此，每个门户都可以使用不同的方法。自2018年8月以来，通用的爬网存档使得查找特定语言的页面变得非常容易。每个月大约有300000个乌兹别克语页面（）被爬网。在和中有一些示例可以通过SQL和Spark按语言提取内容。一些门户使用url中的语言名称-ie.

。/gb/..

-或作为参数-ie.

？lang=gb