维斯特；从本地目录读取HTML文件_Html_R_Regex_Rvest

维斯特；从本地目录读取HTML文件

html r regex

维斯特；从本地目录读取HTML文件,html,r,regex,rvest,Html,R,Regex,Rvest,我有许多HTML文件存储在本地目录中。理想情况下，我希望使用rvest提取表节点，制作一些dataframe风格，并将文件导出为.txt文件。我不知道如何正确地将HTML文件导入到rvest可以处理的结构中到目前为止我所做的尝试： # Load libraries library(tm) library(RCurl) library(XML) library(rvest) library(stringr) # Set file path folder <- 'path to direc

我有许多HTML文件存储在本地目录中。理想情况下，我希望使用rvest提取表节点，制作一些dataframe风格，并将文件导出为.txt文件。我不知道如何正确地将HTML文件导入到rvest可以处理的结构中

到目前为止我所做的尝试：

# Load libraries
library(tm)
library(RCurl)
library(XML)
library(rvest)
library(stringr)

# Set file path
folder <- 'path to directory'
extension <- '.html'

# Read files to list 
htmls <- lapply(X=html,
                FUN=function(file){
                  .con <- file(description=paste(folder, file, sep='/'))
                  .html <- readLines(.con)
                  close(.con)
                  names(.html)  <- file
                  .html
                })

#加载库
图书馆（tm）
图书馆（RCurl）
库（XML）
图书馆（rvest）
图书馆（stringr）
#设置文件路径
文件夹您是否尝试使用带有本地文件路径的read_html（）
来读取单个html文件？对效果很好。我有7000多个文件存储在本地目录中。我想把它们都写进去，这就是为什么我试着把它们写进一个列表。我说的是在你的笔记本里使用read_html，而不是这些readLines的东西。使用list.files（）传入所有文件名的向量。查看。这是相对较新的，与“tidyverse”一致。也有使用base*apply方法的并行方法@MrFlick的重点是，您应该坚持使用HTML/XML操作，并行性可能会大大加快速度。您也可以做自己要做的事情（将内容读入内存），但仍然可以使用read_HTML（）。