Xml R中readHTMLTable的空结果_Xml_R_Web Scraping

Xml R中readHTMLTable的空结果

xml r web-scraping

Xml R中readHTMLTable的空结果,xml,r,web-scraping,Xml,R,Web Scraping,我试图使用XML包从R中的网站上刮取数据，但没有得到任何结果。我的代码如下。结果为空。第一行显示一个空结果（它找不到任何表） url= 代码： tablesIt看起来像是一个糟糕的网站问题。“手动”执行以下操作：我通常通过IMPORTHTML功能在Google电子表格中进行快速调试（实际上我更喜欢让Google处理一般的数据导入和转换），而它甚至无法刮取页面我用命令行curl和wget尝试了它，结果（毫不奇怪）是一样的你可能需要走这条路：得到你需要的东西。不过，我可能遗漏了一些明显的东西。

我试图使用XML包从R中的网站上刮取数据，但没有得到任何结果。我的代码如下。结果为空。第一行显示一个空结果（它找不到任何表）

url=

代码：

tablesIt看起来像是一个糟糕的网站问题。“手动”执行以下操作：
我通常通过IMPORTHTML
功能在Google电子表格中进行快速调试（实际上我更喜欢让Google处理一般的数据导入和转换），而它甚至无法刮取页面
我用命令行curl
和wget
尝试了它，结果（毫不奇怪）是一样的
你可能需要走这条路：得到你需要的东西。不过，我可能遗漏了一些明显的东西。
在另一条线索上得到了答案。基本上，您需要在R中使用relium包
解决方案：
你的第一行给了我一个0的列表。是的，这肯定是问题的根源，但我不知道为什么。我将编辑原始问题以澄清这一点。该表似乎是由javascript生成的，这使得它更具挑战性，但进行搜索，您可能会得到一些有用的代码
tables <- readHTMLTable(url, stringsAsFactors=FALSE)
data<-do.call("rbind", tables[seq(from=8, to=56, by=2)])
data<-cbind(data, sapply(lapply(tables[seq(from=9, to=57, by=2)],  '[[', i=2), '[', 1))
rownames(data)<-NULL
names(data) <- c("year.man.model", "s.n", "price", "location", "auction")
head(data)

library(RCurl)
library(XML)

url <- "http://www.machinerytrader.com/list/list.aspx?pg=1&ETID=5&catid=1015&SO=26&mdlx=contains&bcatid=4&Pref=0&Thumbs=1&scf=false&units=imperial"
pg <- getURL(url)
conn <- textConnection(pg)
pg <- readLines(conn)
close(conn)

pg[33]
[1] "<noscript>Please enable JavaScript to view the page content.</noscript>"