使用rvest提取页面抓取标题时出现问题

使用rvest提取页面抓取标题时出现问题,r,web-scraping,rvest,R,Web Scraping,Rvest,除了Rstudio,我还在努力学习如何使用rvest。但现在我被困在试图获取一篇文章的标题 具体条款如下: 我尝试过使用bot-CSS选择器和XPath,但都没有成功。我曾经在其他网页上尝试过,没有任何问题,所以我对这一次感到非常失望 该元件的结构为: <h1 class="article-title"> <p> Beyond imports: The supply chain effects of trade protecti

除了Rstudio,我还在努力学习如何使用rvest。但现在我被困在试图获取一篇文章的标题

具体条款如下:

我尝试过使用bot-CSS选择器和XPath,但都没有成功。我曾经在其他网页上尝试过,没有任何问题,所以我对这一次感到非常失望

该元件的结构为:

    <h1 class="article-title">
    <p>
    Beyond imports: The supply chain effects of trade protection on export growth   </p>
    </h1>


超越进口:贸易保护对出口增长的供应链效应

因此,
标记后面似乎有一个换行符

我使用的代码如下所示:

sub_page <-  read_html("http://voxeu.org/article/design-choices-central-bank-digital-currency")

title <-  sub_page %>%
html_nodes(".article-title") %>%
html_text()
子页面%
html_text()
返回
[1]“\n”


例如,如果我想获取页面的文章内容,那么使用
.article content
作为CSS选择器没有问题,然后它将获取整个内容。我尝试了SelectorGadget提出的各种建议,但没有成功。有人能给我指出正确的方向吗?

起初我认为它的内容是由JS生成的,但事实并非如此。我跟随R中的节点,没有看到
标记下的
标记。这有点奇怪,也许是rvest里的一只虫子。一个有效的解决方案是
title%html\u节点(xpath=“//meta[@name='twitter:title']”)%>%html\u attr(“内容”)
@xwhitelight非常感谢您的输入。一开始,我还认为它可能是JS,但不是。这很奇怪-但谢谢你的解决方案-它工作得很好!您应该将git问题添加到
https://github.com/tidyverse/rvest/issues
供开发人员检查。它可以防止将来出现错误。我现在已经做到了。再次感谢!起初我认为它的内容是由JS生成的,但事实并非如此。我跟随R中的节点,没有看到
标记下的
标记。这有点奇怪,也许是rvest里的一只虫子。一个有效的解决方案是
title%html\u节点(xpath=“//meta[@name='twitter:title']”)%>%html\u attr(“内容”)
@xwhitelight非常感谢您的输入。一开始,我还认为它可能是JS,但不是。这很奇怪-但谢谢你的解决方案-它工作得很好!您应该将git问题添加到
https://github.com/tidyverse/rvest/issues
供开发人员检查。它可以防止将来出现错误。我现在已经做到了。再次感谢!