Html rvest-在特定标记后获取文本?
我正试图从报纸上刮下文字。我可以通过以下方式获得所有说话角色的名字:Html rvest-在特定标记后获取文本?,html,r,rvest,Html,R,Rvest,我正试图从报纸上刮下文字。我可以通过以下方式获得所有说话角色的名字: url1 <- "http://atla.avatarspirit.net/transcripts.php?num=120" webpage <- read_html(url1) webpage %>% html_nodes("b") %>% html_text() url1% html_text() 但是我不知道如何也能把角色说的话拉出来。当我检查它时,看起来引号在#text中,但我无法
url1 <- "http://atla.avatarspirit.net/transcripts.php?num=120"
webpage <- read_html(url1)
webpage %>%
html_nodes("b") %>%
html_text()
url1%
html_text()
但是我不知道如何也能把角色说的话拉出来。当我检查它时,看起来引号在
#text
中,但我无法让它工作。任何帮助都将不胜感激 您需要使用类似这样的内容(它不完整,但会得到角色所说的内容):
看一看,我看到了两种选择。一个是,如果你使用“blockquote”,它会将所有文本向下拉。也许一点格式设置就可以实现你想要的
webpage %>%
html_nodes("blockquote") %>%
html_text()
另一个选项是使用“i”,这会使文本更清晰;然而,它并没有捕获所有的文本响应
webpage %>%
html_nodes("i") %>%
html_text()
webpage %>%
html_nodes("i") %>%
html_text()