维斯特;从本地目录读取HTML文件

维斯特;从本地目录读取HTML文件,html,r,regex,rvest,Html,R,Regex,Rvest,我有许多HTML文件存储在本地目录中。理想情况下,我希望使用rvest提取表节点,制作一些dataframe风格,并将文件导出为.txt文件。我不知道如何正确地将HTML文件导入到rvest可以处理的结构中 到目前为止我所做的尝试: # Load libraries library(tm) library(RCurl) library(XML) library(rvest) library(stringr) # Set file path folder <- 'path to direc

我有许多HTML文件存储在本地目录中。理想情况下,我希望使用rvest提取表节点,制作一些dataframe风格,并将文件导出为.txt文件。我不知道如何正确地将HTML文件导入到rvest可以处理的结构中

到目前为止我所做的尝试:

# Load libraries
library(tm)
library(RCurl)
library(XML)
library(rvest)
library(stringr)

# Set file path
folder <- 'path to directory'
extension <- '.html'

# Read files to list 
htmls <- lapply(X=html,
                FUN=function(file){
                  .con <- file(description=paste(folder, file, sep='/'))
                  .html <- readLines(.con)
                  close(.con)
                  names(.html)  <- file
                  .html
                })
#加载库
图书馆(tm)
图书馆(RCurl)
库(XML)
图书馆(rvest)
图书馆(stringr)
#设置文件路径

文件夹您是否尝试使用带有本地文件路径的
read_html()
来读取单个html文件?对效果很好。我有7000多个文件存储在本地目录中。我想把它们都写进去,这就是为什么我试着把它们写进一个列表。我说的是在你的笔记本里使用read_html,而不是这些readLines的东西。使用list.files()传入所有文件名的向量。查看。这是相对较新的,与“tidyverse”一致。也有使用base*apply方法的并行方法@MrFlick的重点是,您应该坚持使用HTML/XML操作,并行性可能会大大加快速度。您也可以做自己要做的事情(将内容读入内存),但仍然可以使用read_HTML()。