R 我如何整理我的数据?

R 我如何整理我的数据?,r,web-scraping,text,data-cleaning,R,Web Scraping,Text,Data Cleaning,我正在为瑞士的一些新闻网站制作一个网页刮板。经过一些尝试和错误以及StackOverflow(thx everyone!)的大量帮助,我已经到了可以从所有文章中获取文本数据的地步 #packages instalieren install.packages("rvest") install.packages("tidyverse") install.packages("dplyr") library(rvest) library(st

我正在为瑞士的一些新闻网站制作一个网页刮板。经过一些尝试和错误以及StackOverflow(thx everyone!)的大量帮助,我已经到了可以从所有文章中获取文本数据的地步

#packages instalieren

install.packages("rvest")
install.packages("tidyverse")
install.packages("dplyr")
library(rvest)
library(stringr)

#seite einlesen

apisrf<- read_xml('https://www.srf.ch/news/bnf/rss/1646')

urls_srf <- apisrf %>% html_nodes('link') %>% html_text()
zeit_srf <- apisrf %>% html_nodes('pubDate') %>% html_text()

#data.frame basteln

dfsrf_titel_text <- data.frame(Text = character())

#scrape

for(i in 1:length(urls_srf)) {
  link <- urls_srf[i]
  
  artikel <- read_html(link)
  
  #Informationen entnehmen
  textsrf<- artikel %>% html_nodes('p') %>% html_text()
 
  #In Dataframe strukturieren
  
  dfsrf_text <- data.frame(Text = textsrf)
  
  dfsrf_titel_text <- rbind(dfsrf_titel_text, cbind(dfsrf_text))  
       
}
#软件包不稳定
安装软件包(“rvest”)
安装程序包(“tidyverse”)
安装程序包(“dplyr”)
图书馆(rvest)
图书馆(stringr)
#塞特艾恩勒森酒店
apisrf%html\u文本()
zeit_srf%html_节点('pubDate')%%>%html_文本()
#data.frame basteln

dfsrf_titel_text您能提供您的数据样本吗?您可以使用
strsplit(string,pattern)
函数,其中您指定的模式仅在文章之间发生。也许是网址

strsplit(dfsrf_text,"www.\\w+.ch")

这将在.ch域中找到URL时分割文本。您可以使用来帮助识别分隔文章的模式

你能提供你的数据样本吗?您可以使用
strsplit(string,pattern)
函数,其中您指定的模式仅在文章之间发生。也许是网址

strsplit(dfsrf_text,"www.\\w+.ch")

这将在.ch域中找到URL时分割文本。您可以使用来帮助识别分隔文章的模式

您应该在创建数据帧本身时更正此问题。在这里,我使用
paste0
在它们之间添加新行字符(
\n\n
)将这篇文章的所有数据绑定在一起


因此,这将为您提供与
url的长度相同的行数\u srf

您应该在创建数据帧本身时更正这一点。在这里,我使用
paste0
在它们之间添加新行字符(
\n\n
)将这篇文章的所有数据绑定在一起


因此,这将为您提供与
URL长度相同的行数\u srf

还有一件事我需要帮助:这段代码在今天之前运行得非常好,但现在它显示“最多(10)个重定向”。有办法解决重定向问题吗?我不知道如何在浏览网页时处理重定向。也许你可以发布一个新问题?还有一件事我需要帮助:这段代码在今天之前运行得非常好,但现在它说“最多(10)次重定向”。有办法解决重定向问题吗?我不知道如何在浏览网页时处理重定向。也许你可以发布一个新问题?
dfsrf_titel_text <- data.frame(text = sapply(urls_srf, function(x) {
    paste0(read_html(x) %>% html_nodes('p') %>% html_text(), collapse = "\n\n")
}))