R 刮削-有限的搜索结果可用性_R_Search_Web Scraping_Rvest

R 刮削-有限的搜索结果可用性

r search web-scraping

R 刮削-有限的搜索结果可用性,r,search,web-scraping,rvest,R,Search,Web Scraping,Rvest,所以我想建立一些二手车价格数据库，对不同品牌、国家、燃料类型等进行数据分析我找到了两个包含这些信息的网站，并提取了一些数据。但我还想从autoscout24.com提取数据我正在使用R的rvest包，通常我需要做的就是编写一个循环，遍历所有搜索结果并从每个列表收集信息我发现AutoCout的有趣之处在于，不可能查看所有搜索结果。比如说，你去他们的网页，选择国家并按结果。然后在结果页面上只有前20个页面，每个页面包含20个列表。当您转到最后一个搜索结果页面时，不会发生任何更改。因此，基本上，

所以我想建立一些二手车价格数据库，对不同品牌、国家、燃料类型等进行数据分析

我找到了两个包含这些信息的网站，并提取了一些数据。但我还想从autoscout24.com提取数据

我正在使用R的rvest包，通常我需要做的就是编写一个循环，遍历所有搜索结果并从每个列表收集信息

我发现AutoCout的有趣之处在于，不可能查看所有搜索结果。比如说，你去他们的网页，选择国家并按结果。然后在结果页面上只有前20个页面，每个页面包含20个列表。当您转到最后一个搜索结果页面时，不会发生任何更改。因此，基本上，您最多只能查看400个搜索结果

我在想，如果这样做是有目的的，那么像我这样的人就不能轻易地获取他们的数据了？从我的角度来看，这一切都很好，但我只是对此感到好奇，因为我从未在其他网站上看到过这种做法（尽管我没有尝试过刮它们）。

你能提供一个示例搜索结果吗？例如，这里是奥地利所有汽车列表的搜索结果。我们可以看到有超过100k的结果，但实际上只能访问400个。是的，这是一种保护，这样他们就不会太容易地破坏数据库。你甚至不能在URL中修改，我尝试将页面更改为page=21，但我遇到了一个错误，这不是一个很不寻常的解决方案吗？我的意思是，他们不允许他们的用户访问这些信息。当然，大多数时候，客户应该对更具体的结果感兴趣，但仍然如此。API通常不是用来限制可以访问的数据吗？它们确实限制了对API的访问。也许您可以进一步研究一下，看看他们的API是如何实现的，并利用它（使用浏览器的“网络”选项卡查找端点和其他内容）。但我建议转到另一个网站