使用rvest提取页面抓取标题时出现问题_R_Web Scraping_Rvest

使用rvest提取页面抓取标题时出现问题

r web-scraping

使用rvest提取页面抓取标题时出现问题,r,web-scraping,rvest,R,Web Scraping,Rvest,除了Rstudio，我还在努力学习如何使用rvest。但现在我被困在试图获取一篇文章的标题具体条款如下：我尝试过使用bot-CSS选择器和XPath，但都没有成功。我曾经在其他网页上尝试过，没有任何问题，所以我对这一次感到非常失望该元件的结构为： <h1 class="article-title"> <p> Beyond imports: The supply chain effects of trade protecti

除了Rstudio，我还在努力学习如何使用rvest。但现在我被困在试图获取一篇文章的标题

具体条款如下：

我尝试过使用bot-CSS选择器和XPath，但都没有成功。我曾经在其他网页上尝试过，没有任何问题，所以我对这一次感到非常失望

该元件的结构为：

    <h1 class="article-title">
    <p>
    Beyond imports: The supply chain effects of trade protection on export growth   </p>
    </h1>



超越进口：贸易保护对出口增长的供应链效应

因此，

标记后面似乎有一个换行符

我使用的代码如下所示：

sub_page <-  read_html("http://voxeu.org/article/design-choices-central-bank-digital-currency")

title <-  sub_page %>%
html_nodes(".article-title") %>%
html_text()

子页面%
html_text（）

[1]“\n”

例如，如果我想获取页面的文章内容，那么使用

.article content

作为CSS选择器没有问题，然后它将获取整个内容。我尝试了SelectorGadget提出的各种建议，但没有成功。有人能给我指出正确的方向吗？

起初我认为它的内容是由JS生成的，但事实并非如此。我跟随R中的节点，没有看到

标记下的

标记。这有点奇怪，也许是rvest里的一只虫子。一个有效的解决方案是

title%html\u节点（xpath=“//meta[@name='twitter:title']”）%>%html\u attr（“内容”）

@xwhitelight非常感谢您的输入。一开始，我还认为它可能是JS，但不是。这很奇怪-但谢谢你的解决方案-它工作得很好！您应该将git问题添加到

https://github.com/tidyverse/rvest/issues

供开发人员检查。它可以防止将来出现错误。我现在已经做到了。再次感谢！起初我认为它的内容是由JS生成的，但事实并非如此。我跟随R中的节点，没有看到

标记下的

标记。这有点奇怪，也许是rvest里的一只虫子。一个有效的解决方案是

title%html\u节点（xpath=“//meta[@name='twitter:title']”）%>%html\u attr（“内容”）

@xwhitelight非常感谢您的输入。一开始，我还认为它可能是JS，但不是。这很奇怪-但谢谢你的解决方案-它工作得很好！您应该将git问题添加到

https://github.com/tidyverse/rvest/issues

供开发人员检查。它可以防止将来出现错误。我现在已经做到了。再次感谢！