R 高效循环一个包含多个子页面的页面,并将所有子页面存储在一个变量中?

R 高效循环一个包含多个子页面的页面,并将所有子页面存储在一个变量中?,r,iteration,webpage,R,Iteration,Webpage,假设我将以下页面作为字符串: X <- "http://www.rightmove.co.uk/property-for-sale/Glasgow.html?sortType=6&maxPrice=50000&displayPropertyType=flats&numberOfPropertiesPerPage=50&index=0" 我的问题是如何将每个字符串很好地快速地存储到同一个变量中,以便在完成后,我可以通过执行greps、gsubs和regexp

假设我将以下页面作为字符串:

X <- "http://www.rightmove.co.uk/property-for-sale/Glasgow.html?sortType=6&maxPrice=50000&displayPropertyType=flats&numberOfPropertiesPerPage=50&index=0"
我的问题是如何将每个字符串很好地快速地存储到同一个变量中,以便在完成后,我可以通过执行greps、gsubs和regexps将该变量用作进一步数据提取的参数?
我的意思是,我想通过每个字符串下载整个页面源代码,这些字符串仅仅是指向网站的指针。

您是否正在尝试构建一个web刮板

根据我个人的经验,最好的方法是找到页面中的“下一页”按钮,并从中解析下一个URL。通过这种方式,您可以模拟用户单击,并且您的程序将准确地知道在哪里停止

我还存储已经处理过的URL,以防止无限循环

"index=0"
"index=50"
"index=100"
...
"index=500"