Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/64.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/search/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/objective-c/23.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 刮削-有限的搜索结果可用性_R_Search_Web Scraping_Rvest - Fatal编程技术网

R 刮削-有限的搜索结果可用性

R 刮削-有限的搜索结果可用性,r,search,web-scraping,rvest,R,Search,Web Scraping,Rvest,所以我想建立一些二手车价格数据库,对不同品牌、国家、燃料类型等进行数据分析 我找到了两个包含这些信息的网站,并提取了一些数据。但我还想从autoscout24.com提取数据 我正在使用R的rvest包,通常我需要做的就是编写一个循环,遍历所有搜索结果并从每个列表收集信息 我发现AutoCout的有趣之处在于,不可能查看所有搜索结果。比如说,你去他们的网页,选择国家并按结果。然后在结果页面上只有前20个页面,每个页面包含20个列表。当您转到最后一个搜索结果页面时,不会发生任何更改。因此,基本上,

所以我想建立一些二手车价格数据库,对不同品牌、国家、燃料类型等进行数据分析

我找到了两个包含这些信息的网站,并提取了一些数据。但我还想从autoscout24.com提取数据

我正在使用R的rvest包,通常我需要做的就是编写一个循环,遍历所有搜索结果并从每个列表收集信息

我发现AutoCout的有趣之处在于,不可能查看所有搜索结果。比如说,你去他们的网页,选择国家并按结果。然后在结果页面上只有前20个页面,每个页面包含20个列表。当您转到最后一个搜索结果页面时,不会发生任何更改。因此,基本上,您最多只能查看400个搜索结果


我在想,如果这样做是有目的的,那么像我这样的人就不能轻易地获取他们的数据了?从我的角度来看,这一切都很好,但我只是对此感到好奇,因为我从未在其他网站上看到过这种做法(尽管我没有尝试过刮它们)。

你能提供一个示例搜索结果吗?例如,这里是奥地利所有汽车列表的搜索结果。我们可以看到有超过100k的结果,但实际上只能访问400个。是的,这是一种保护,这样他们就不会太容易地破坏数据库。你甚至不能在URL中修改,我尝试将页面更改为page=21,但我遇到了一个错误,这不是一个很不寻常的解决方案吗?我的意思是,他们不允许他们的用户访问这些信息。当然,大多数时候,客户应该对更具体的结果感兴趣,但仍然如此。API通常不是用来限制可以访问的数据吗?它们确实限制了对API的访问。也许您可以进一步研究一下,看看他们的API是如何实现的,并利用它(使用浏览器的“网络”选项卡查找端点和其他内容)。但我建议转到另一个网站