Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/72.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用R-xpathsaply抓取HTML_Html_R_Xpath_Screen Scraping - Fatal编程技术网

使用R-xpathsaply抓取HTML

使用R-xpathsaply抓取HTML,html,r,xpath,screen-scraping,Html,R,Xpath,Screen Scraping,我想使用它们的类或xpathSapply从下面的html代码中提取信息 例如,我想将不同的信息捕获为一个表 有效性作为一列填写5和完整评论 而不是 被截断的一个作为填充有完整注释的列 条件:胃酸被推入食管的条件 2014年12月8日下午12:27:53 审查者:信仰者,35-44岁女性,治疗2-5年(患者) 有效性 电流额定值:5 易用性 电流额定值:5 满意度 电流额定值:5 评论:最棒!我试过几种不同的处方';s来帮助我解决胃酸问题,但没有一个比Nexium更有效。在

我想使用它们的类或xpathSapply从下面的html代码中提取信息

例如,我想将不同的信息捕获为一个表

  • 有效性作为一列填写5和完整评论
而不是

  • 被截断的一个作为填充有完整注释的列


条件:胃酸被推入食管的条件
2014年12月8日下午12:27:53

审查者:信仰者,35-44岁女性,治疗2-5年(患者)

有效性

电流额定值:5

易用性

电流额定值:5

满意度

电流额定值:5

评论:
最棒!我试过几种不同的处方';s来帮助我解决胃酸问题,但没有一个比Nexium更有效。在服用3个月后,我停止服用,因为我的医生认为这需要多长时间才能治愈我。我停止服用,砰的一声,疼痛又回来了。回到Nexium,我会继续。这种宽慰出乎意料

评论:
最棒!我试过几种不同的处方';s来帮助我解决胃酸问题,但没有一个比Nexium更有效。在服用3个月后,我停止服用,因为我的医生认为这需要多长时间才能治愈我。我停止服用,砰的一声,疼痛又回来了。回到Nexium,我会继续。这种解脱是出乎意料的。

4 人 发现此评论很有帮助。
这篇评论有用吗


我不清楚你在做什么,但这是一个开始。如果这不是您想要的方向,请在您尝试以下内容后编辑您的问题(并包括您的代码)。假设“url”是您从中获得所提供HTML代码的网站url,请尝试以下操作:

library(xml)
doc <- htmlTreeParse(url) # reads into the object doc the contents of the url

data <- xpathSApply(doc, "//div[@id = 'ctnStars']//[[@class = 'category']", xmlValue, trim = TRUE) # to extract the value of that node ("Effectiveness")
库(xml)

大家好,欢迎来到Stack Overflow。那么:你试过什么代码?它坏了吗?如果是,错误消息是什么?在S/O,我们更愿意帮助您完成您曾经尝试过的工作,而不是为您编写,所以请向我们展示您所拥有的:)
library(xml)
doc <- htmlTreeParse(url) # reads into the object doc the contents of the url

data <- xpathSApply(doc, "//div[@id = 'ctnStars']//[[@class = 'category']", xmlValue, trim = TRUE) # to extract the value of that node ("Effectiveness")