Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/maven/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Web scraping 爬行维基百科_Web Scraping_Web Crawler - Fatal编程技术网

Web scraping 爬行维基百科

Web scraping 爬行维基百科,web-scraping,web-crawler,Web Scraping,Web Crawler,我正在使用WindowsWebsiteDownloader对wikipedia进行爬网,我正在浏览这个工具中的所有选项,以找到一个在特定时期下载wikipedia页面的选项,例如从2005年到现在 有人知道在特定的时间段内对网站进行爬网吗?试试你的技能和编程技巧。应该没有必要进行网页抓取;使用直接请求所需的信息。我不知道你所说的“特定时期的维基百科页面”是什么意思——你是说最后一次编辑是在特定时间吗?如果是这样,在浏览时,我注意到一个API调用,它可以让您查看最近的n修订版;只要问一下最新版本,

我正在使用WindowsWebsiteDownloader对wikipedia进行爬网,我正在浏览这个工具中的所有选项,以找到一个在特定时期下载wikipedia页面的选项,例如从2005年到现在


有人知道在特定的时间段内对网站进行爬网吗?

试试你的技能和编程技巧。

应该没有必要进行网页抓取;使用直接请求所需的信息。我不知道你所说的“特定时期的维基百科页面”是什么意思——你是说最后一次编辑是在特定时间吗?如果是这样,在浏览时,我注意到一个API调用,它可以让您查看最近的
n
修订版;只要问一下最新版本,看看它的日期是什么。

为什么不


你可以这样做。

这取决于相关网站是否提供了存档,而大多数情况下都没有,因此不可能直接从特定日期开始抓取样本。但是您可以在爬虫程序中实现一些智能来读取页面创建日期或类似的内容


但是你也可以看看维基百科API的链接,如果我没有误认为是英语,那么其他语言呢?你需要谷歌的链接吗?他们似乎没有提供2009年以前的转储。他们出售的DVD似乎是2007年左右的。实际上,当我在寻找转储数据时,如果我下载所有的数据,它将在我的HD中占据巨大的空间,我想下载一些数据,特别是我想下载一些语言的转储,而不是包含超过250种语言的整个转储数据!好吧,你可以用它从维基抓取几乎任何数据,也可以是部分的,上一个。修订等。试着阅读手册。是否有可能使用维基百科API提取不同语言中单词的含义!!!您认为有可能吗?没有尝试,但是有属性
langlinks(ll)
可以从给定页面获取所有中介语链接的列表,您可以获取特定语言的内容,然后切换到API URL中相应的子域。是的。。。。我使用wikipeda API成功地获得了我想要的结果。。。但奇怪的是,你们以前有并没有处理过维基百科的垃圾数据!!!没有。事实上,我几乎没有一个项目比为某个主题(通常是某个位置)获取一些简短(一段)的定义更能与wiki合作。我真的看不出有任何理由以其他方式使用它,也没有理由显示来自wiki的完整信息(如果我需要的话,所以我只是放了一些指向相应wiki文章的链接),只要你不尝试编写wiki的包装器。