web抓取:如何处理RSS提要
我正在做一个项目,需要检索craigslist列表并将其保存为结构化表格格式。虽然没有可用的API,但URLweb抓取:如何处理RSS提要,r,web-scraping,R,Web Scraping,我正在做一个项目,需要检索craigslist列表并将其保存为结构化表格格式。虽然没有可用的API,但URLhttp://boston.craigslist.org/search/hhh?format=rss&query=apartments返回我需要的部分内容。从该网页中读取内容并将其保存到带有标题、链接和描述列的表中的最佳方式是什么?我尝试了下面的代码,但它返回了一条错误消息 library(rvest) url <- "http://boston.craigslist.org/sea
http://boston.craigslist.org/search/hhh?format=rss&query=apartments
返回我需要的部分内容。从该网页中读取内容并将其保存到带有标题、链接和描述列的表中的最佳方式是什么?我尝试了下面的代码,但它返回了一条错误消息
library(rvest)
url <- "http://boston.craigslist.org/search/hhh?format=rss&query=apartments"
read_html(url)
#error msg
Error in UseMethod("read_xml") :
no applicable method for 'read_xml' applied to an object of class "function"
库(rvest)
url尝试将url
重命名为url
<代码>url
也是一个函数(请参见?url
)。不知何故,这让Ryan感到困惑,你可能会找回XML,而不是HTML,仅供参考。也许可以使用?尝试将url
重命名为url
<代码>url也是一个函数(请参见?url
)。不知怎的,这让Ryan感到困惑,你可能会得到XML,而不是HTML,仅供参考。也许只是使用?