Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/clojure/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Html 在web抓取时从子类获取值_Html_Css_R_Web Scraping - Fatal编程技术网

Html 在web抓取时从子类获取值

Html 在web抓取时从子类获取值,html,css,r,web-scraping,Html,Css,R,Web Scraping,我想从站点获取阶段状态列表。我制定这样的代码: library("rvest") library("magrittr") url <- 'https://energybase.ru/en/oil-gas-field/index' read_html(url) %>% html_nodes(".info")%>% html_children()%>% html_children()

我想从站点获取阶段状态列表。我制定这样的代码:

library("rvest") 
library("magrittr")

url <- 'https://energybase.ru/en/oil-gas-field/index'

read_html(url) %>% 
        html_nodes(".info")%>% 
             html_children()%>% 
                  html_children()
等等。我应该使用什么函数来解决我的问题?

您可以使用

read_html(url) %>% 
  html_nodes(".col-md-8:nth-child(2) .value") %>% 
  html_text
得到

 [1] "нефтегазовое"          "газонефтяное"          "нефтегазоконденсатное" "нефтяное"             
 [5] "нефтяное"              "нефтегазовое"          "нефтяное"              "нефтяное"             
 [9] "нефтяное"              "нефтегазоконденсатное" "нефтегазоконденсатное" "нефтяное"             
[13] "нефтегазоконденсатное" "нефтегазоконденсатное" "нефтяное"              "нефтяное"             
[17] "газонефтяное"          "нефтегазоконденсатное" "нефтяное"              "нефтегазовое"  
获取正确css选择器(
.col-md-8:nth child(2).value
)的一个非常好的工具是-以下是示例的屏幕截图:


您只需从下拉选项中选择,即可获得唯一列表,无需重复。取决于您是否希望完整列表中包含重复项

library(rvest)
library(magrittr)

phases <- (read_html('https://energybase.ru/en/oil-gas-field/index') %>%
          html_nodes('#fieldsearch-phase option') %>%
          html_text())[-1]
库(rvest)
图书馆(magrittr)
阶段%
html_节点(“#字段搜索阶段选项”)%>%
html_text())[-1]
read_html(url) %>% 
  html_nodes(".col-md-8:nth-child(2) .value") %>% 
  html_text
 [1] "нефтегазовое"          "газонефтяное"          "нефтегазоконденсатное" "нефтяное"             
 [5] "нефтяное"              "нефтегазовое"          "нефтяное"              "нефтяное"             
 [9] "нефтяное"              "нефтегазоконденсатное" "нефтегазоконденсатное" "нефтяное"             
[13] "нефтегазоконденсатное" "нефтегазоконденсатное" "нефтяное"              "нефтяное"             
[17] "газонефтяное"          "нефтегазоконденсатное" "нефтяное"              "нефтегазовое"  
library(rvest)
library(magrittr)

phases <- (read_html('https://energybase.ru/en/oil-gas-field/index') %>%
          html_nodes('#fieldsearch-phase option') %>%
          html_text())[-1]