R 我如何整理我的数据？_R_Web Scraping_Text_Data Cleaning

R 我如何整理我的数据？

r web-scraping text

R 我如何整理我的数据？,r,web-scraping,text,data-cleaning,R,Web Scraping,Text,Data Cleaning,我正在为瑞士的一些新闻网站制作一个网页刮板。经过一些尝试和错误以及StackOverflow（thx everyone！）的大量帮助，我已经到了可以从所有文章中获取文本数据的地步 #packages instalieren install.packages("rvest") install.packages("tidyverse") install.packages("dplyr") library(rvest) library(st

我正在为瑞士的一些新闻网站制作一个网页刮板。经过一些尝试和错误以及StackOverflow（thx everyone！）的大量帮助，我已经到了可以从所有文章中获取文本数据的地步

#packages instalieren

install.packages("rvest")
install.packages("tidyverse")
install.packages("dplyr")
library(rvest)
library(stringr)

#seite einlesen

apisrf<- read_xml('https://www.srf.ch/news/bnf/rss/1646')

urls_srf <- apisrf %>% html_nodes('link') %>% html_text()
zeit_srf <- apisrf %>% html_nodes('pubDate') %>% html_text()

#data.frame basteln

dfsrf_titel_text <- data.frame(Text = character())

#scrape

for(i in 1:length(urls_srf)) {
  link <- urls_srf[i]
  
  artikel <- read_html(link)
  
  #Informationen entnehmen
  textsrf<- artikel %>% html_nodes('p') %>% html_text()
 
  #In Dataframe strukturieren
  
  dfsrf_text <- data.frame(Text = textsrf)
  
  dfsrf_titel_text <- rbind(dfsrf_titel_text, cbind(dfsrf_text))  
       
}

#软件包不稳定
安装软件包（“rvest”）
安装程序包（“tidyverse”）
安装程序包（“dplyr”）
图书馆（rvest）
图书馆（stringr）
#塞特艾恩勒森酒店
apisrf%html\u文本（）
zeit_srf%html_节点（'pubDate'）%%>%html_文本（）
#data.frame basteln
dfsrf_titel_text您能提供您的数据样本吗？您可以使用strsplit（string，pattern）
函数，其中您指定的模式仅在文章之间发生。也许是网址
strsplit(dfsrf_text,"www.\\w+.ch")

这将在.ch域中找到URL时分割文本。您可以使用来帮助识别分隔文章的模式
 你能提供你的数据样本吗？您可以使用strsplit（string，pattern）
函数，其中您指定的模式仅在文章之间发生。也许是网址
strsplit(dfsrf_text,"www.\\w+.ch")

这将在.ch域中找到URL时分割文本。您可以使用来帮助识别分隔文章的模式
 您应该在创建数据帧本身时更正此问题。在这里，我使用paste0
在它们之间添加新行字符（\n\n
）将这篇文章的所有数据绑定在一起
因此，这将为您提供与url的长度相同的行数\u srf
您应该在创建数据帧本身时更正这一点。在这里，我使用paste0
在它们之间添加新行字符（\n\n
）将这篇文章的所有数据绑定在一起
因此，这将为您提供与URL长度相同的行数\u srf
还有一件事我需要帮助：这段代码在今天之前运行得非常好，但现在它显示“最多（10）个重定向”。有办法解决重定向问题吗？我不知道如何在浏览网页时处理重定向。也许你可以发布一个新问题？还有一件事我需要帮助：这段代码在今天之前运行得非常好，但现在它说“最多（10）次重定向”。有办法解决重定向问题吗？我不知道如何在浏览网页时处理重定向。也许你可以发布一个新问题？
dfsrf_titel_text <- data.frame(text = sapply(urls_srf, function(x) {
    paste0(read_html(x) %>% html_nodes('p') %>% html_text(), collapse = "\n\n")
}))