使用rvest提取页面抓取标题时出现问题
除了Rstudio,我还在努力学习如何使用rvest。但现在我被困在试图获取一篇文章的标题 具体条款如下: 我尝试过使用bot-CSS选择器和XPath,但都没有成功。我曾经在其他网页上尝试过,没有任何问题,所以我对这一次感到非常失望 该元件的结构为:使用rvest提取页面抓取标题时出现问题,r,web-scraping,rvest,R,Web Scraping,Rvest,除了Rstudio,我还在努力学习如何使用rvest。但现在我被困在试图获取一篇文章的标题 具体条款如下: 我尝试过使用bot-CSS选择器和XPath,但都没有成功。我曾经在其他网页上尝试过,没有任何问题,所以我对这一次感到非常失望 该元件的结构为: <h1 class="article-title"> <p> Beyond imports: The supply chain effects of trade protecti
<h1 class="article-title">
<p>
Beyond imports: The supply chain effects of trade protection on export growth </p>
</h1>
超越进口:贸易保护对出口增长的供应链效应
因此,
标记后面似乎有一个换行符
我使用的代码如下所示:
sub_page <- read_html("http://voxeu.org/article/design-choices-central-bank-digital-currency")
title <- sub_page %>%
html_nodes(".article-title") %>%
html_text()
子页面%
html_text()
返回[1]“\n”
例如,如果我想获取页面的文章内容,那么使用
.article content
作为CSS选择器没有问题,然后它将获取整个内容。我尝试了SelectorGadget提出的各种建议,但没有成功。有人能给我指出正确的方向吗?起初我认为它的内容是由JS生成的,但事实并非如此。我跟随R中的节点,没有看到
标记下的
标记。这有点奇怪,也许是rvest里的一只虫子。一个有效的解决方案是title%html\u节点(xpath=“//meta[@name='twitter:title']”)%>%html\u attr(“内容”)
@xwhitelight非常感谢您的输入。一开始,我还认为它可能是JS,但不是。这很奇怪-但谢谢你的解决方案-它工作得很好!您应该将git问题添加到https://github.com/tidyverse/rvest/issues
供开发人员检查。它可以防止将来出现错误。我现在已经做到了。再次感谢!起初我认为它的内容是由JS生成的,但事实并非如此。我跟随R中的节点,没有看到
标记下的
标记。这有点奇怪,也许是rvest里的一只虫子。一个有效的解决方案是title%html\u节点(xpath=“//meta[@name='twitter:title']”)%>%html\u attr(“内容”)
@xwhitelight非常感谢您的输入。一开始,我还认为它可能是JS,但不是。这很奇怪-但谢谢你的解决方案-它工作得很好!您应该将git问题添加到https://github.com/tidyverse/rvest/issues
供开发人员检查。它可以防止将来出现错误。我现在已经做到了。再次感谢!