R 从一个页面中拖拽多个表_R

R 从一个页面中拖拽多个表

R 从一个页面中拖拽多个表,r,R,我正在尝试对页面上的5个表进行webscrape：www.lme.com/copper.asp 我可以浏览整个网页，但在没有HTML格式的情况下，我很难将表格刮到正确的数据框中 library(XML) lme.cu <- readHTMLTable('http://www.lme.com/copper.asp',stringsAsFactors = FALSE) 库（XML） lme.cu通常需要REQUEX材料。对不起，这是刮的艺术的一部分。我最喜欢的两个与正则表达式相关的刮片/清理

我正在尝试对页面上的5个表进行webscrape：www.lme.com/copper.asp

我可以浏览整个网页，但在没有HTML格式的情况下，我很难将表格刮到正确的数据框中

library(XML)
lme.cu <- readHTMLTable('http://www.lme.com/copper.asp',stringsAsFactors = FALSE)

库（XML）
lme.cu通常需要REQUEX材料。对不起，这是刮的艺术的一部分。我最喜欢的两个与正则表达式相关的刮片/清理功能是gsub
和strsplit
，如下所示：
gsub("Â", "", "edsÂedfde", fixed=TRUE)
strsplit("e/d/sÂedfde", "Â", fixed=TRUE)[[1]][2]

如果您希望数据为数字，则还需要删除数字中的逗号
编辑：我还建议你看看我的朋友布莱恩在这里解析HTML数据的一些工作。
这通常需要reqex的东西。对不起，这是刮的艺术的一部分。我最喜欢的两个与正则表达式相关的刮片/清理功能是gsub
和strsplit
，如下所示：
gsub("Â", "", "edsÂedfde", fixed=TRUE)
strsplit("e/d/sÂedfde", "Â", fixed=TRUE)[[1]][2]

如果您希望数据为数字，则还需要删除数字中的逗号
编辑：我还建议你看看我的朋友布莱恩在这里解析HTML数据的一些工作。
你能更具体一点吗？当我运行此程序时，我在lme.cu[[11]]
，lme.cu[[13]]
等中看到的表很好。当然，这些表需要清理一下，但这是web抓取的本质。我正在尝试删除我得到的HTML格式，例如\r\n 12\r\n，所以我只是在数据框中获取数字。你确定这不是语言环境问题吗？我没有看到任何HTML，真的。我看到货币符号和一些需要清理的标点符号（$8500.00），还有很多带有额外空格和换行符的字符串（\n
），但其他的就不多了。正如泰勒提到的，这一切似乎都很容易用gsub处理。你能更具体一点吗？当我运行此程序时，我在lme.cu[[11]]
，lme.cu[[13]]
等中看到的表很好。当然，这些表需要清理一下，但这是web抓取的本质。我正在尝试删除我得到的HTML格式，例如\r\n 12\r\n，所以我只是在数据框中获取数字。你确定这不是语言环境问题吗？我没有看到任何HTML，真的。我看到货币符号和一些需要清理的标点符号（$8500.00），还有很多带有额外空格和换行符的字符串（\n
），但其他的就不多了。正如泰勒所提到的，用gsub处理这一切似乎相当容易；gsub（“，”，“）和gsub（“，”）也是一个好的开始，我想这很好。非常感谢。gsub（“\\n”，”）；gsub（“，”，“）和gsub（“，”）也是一个好的开始，我想这很好。非常感谢你。