File 使用单个文件(网页)创建语料库

File 使用单个文件(网页)创建语料库,file,r,File,R,我想从我的计算机中读取一个文件(该文件是html文档)并将其存储在语料库中(我使用的是包tm) 你有什么解决办法吗 以下是我尝试过的: data<-read.csv(fileName) c2<-Corpus(VectorSource(data)) 数据网页绝对不符合CSV应该遵守的规范。相反,您可能希望使用XML包中的readHTMLTable函数 这是从一个实际的网页抓取,但它应该是相同的想法 file <- "http://xkcd.com/" dat <- re

我想从我的计算机中读取一个文件(该文件是html文档)并将其存储在语料库中(我使用的是包
tm

你有什么解决办法吗

以下是我尝试过的:

data<-read.csv(fileName)
c2<-Corpus(VectorSource(data))

数据网页绝对不符合CSV应该遵守的规范。相反,您可能希望使用XML包中的
readHTMLTable
函数


这是从一个实际的网页抓取,但它应该是相同的想法

file <- "http://xkcd.com/"
dat <- readLines(file)
c2 <- Corpus(VectorSource(dat))

文件网页绝对不符合CSV应该遵守的规范。相反,您可能希望使用XML包中的
readHTMLTable
函数


这是从一个实际的网页抓取,但它应该是相同的想法

file <- "http://xkcd.com/"
dat <- readLines(file)
c2 <- Corpus(VectorSource(dat))

文件签出。签出。感谢您的回答,但我不知道如何使用readHTMLTable的结果创建语料库。你介意给我举个例子吗?@user1278743只是想澄清一下,你是在专门寻找HTML页面的文本,对吗?你真的不需要为你的语料库提取页面的表格,对吗?@user1278743啊,我明白了-你想要返回什么?只显示文本?html标签也一样吗?你能提供更多关于你期望返回的内容的详细信息吗?是的,我想要文本,带有html标签和其他东西。我想把整个文本放在一个语料库中。谢谢你的回答,但我不知道如何用readHTMLTable的结果创建一个语料库。你介意给我举个例子吗?@user1278743只是想澄清一下,你是在专门寻找HTML页面的文本,对吗?你真的不需要为你的语料库提取页面的表格,对吗?@user1278743啊,我明白了-你想要返回什么?只显示文本?html标签也一样吗?你能提供更多关于你期望返回的内容的详细信息吗?是的,我想要文本,带有html标签和其他东西。我想把全文放在一个语料库里。