Html 在搜索函数中使用R按linkname下载URL_Html_Css_R_Web Scraping

Html 在搜索函数中使用R按linkname下载URL

html css r web-scraping

Html 在搜索函数中使用R按linkname下载URL,html,css,r,web-scraping,Html,Css,R,Web Scraping,我想用一些参数从页面上抓取每个月的信息，下载所有返回的文章并寻找一些信息使用css选择器可以很好地进行刮取，例如获取文章名称： library(rvest) browseURL("http://www.sueddeutsche.de/news") #headings Jan 2015 url_parsed1 <- read_html("http://www.sueddeutsche.de/news?search=Fl%C3%BCchtlinge&sort=date&

我想用一些参数从页面上抓取每个月的信息，下载所有返回的文章并寻找一些信息

使用css选择器可以很好地进行刮取，例如获取文章名称：

library(rvest)

browseURL("http://www.sueddeutsche.de/news")

#headings Jan 2015

url_parsed1 <- read_html("http://www.sueddeutsche.de/news?search=Fl%C3%BCchtlinge&sort=date&dep%5B%5D=politik&typ%5B%5D=article&sys%5B%5D=sz&catsz%5B%5D=alles&time=2015-01-01T00%3A00%2F2015-12-31T23%3A59&startDate=01.01.2015&endDate=31.01.2015")
headings_nodes1 <- html_nodes(url_parsed1, css = ".entrylist__title")
headings1 <- html_text(headings_nodes1)
headings1 <- str_replace_all(headings1, "\\n|\\t|\\r", "") %>% str_trim()
head(headings1)
headings1

但是现在我想下载搜索返回的每个entrylist_链接的文章

我该怎么做？我听从了建议，因为URL不是规则的，而且每一篇文章的结尾都有不同的编号，但它不起作用

不知何故，我无法通过href信息获取entrylist_链接信息

我认为把所有的链接放在一个向量中是最大的问题

有人能给我一些建议，如何让这个工作？

提前感谢您的帮助。

如果您在页面上单击鼠标右键，然后单击“输入我正在使用Chrome Web浏览器”，您可以看到底层xml的更多详细信息。我可以拉所有标题下的链接：

library(rvest)

browseURL("http://www.sueddeutsche.de/news")
url_parsed1 <- read_html("http://www.sueddeutsche.de/news?search=Fl%C3%BCchtlinge&sort=date&dep%5B%5D=politik&typ%5B%5D=article&sys%5B%5D=sz&catsz%5B%5D=alles&time=2015-01-01T00%3A00%2F2015-12-31T23%3A59&startDate=01.01.2015&endDate=31.01.2015")

headings_nodes1 <- html_nodes(url_parsed1, ".entrylist__link, a")
html_links <- html_attr(headings_nodes1, "href")

谢谢。最大的问题是打字错误。。。url_已解析1