File 使用单个文件（网页）创建语料库_File_R

File 使用单个文件（网页）创建语料库

file r

File 使用单个文件（网页）创建语料库,file,r,File,R,我想从我的计算机中读取一个文件（该文件是html文档）并将其存储在语料库中（我使用的是包tm）你有什么解决办法吗以下是我尝试过的： data<-read.csv(fileName) c2<-Corpus(VectorSource(data)) 数据网页绝对不符合CSV应该遵守的规范。相反，您可能希望使用XML包中的readHTMLTable函数这是从一个实际的网页抓取，但它应该是相同的想法 file <- "http://xkcd.com/" dat <- re

我想从我的计算机中读取一个文件（该文件是html文档）并将其存储在语料库中（我使用的是包

tm

）

你有什么解决办法吗

以下是我尝试过的：

data<-read.csv(fileName)
c2<-Corpus(VectorSource(data))

数据网页绝对不符合CSV应该遵守的规范。相反，您可能希望使用XML包中的readHTMLTable
函数

这是从一个实际的网页抓取，但它应该是相同的想法
file <- "http://xkcd.com/"
dat <- readLines(file)
c2 <- Corpus(VectorSource(dat))

文件网页绝对不符合CSV应该遵守的规范。相反，您可能希望使用XML包中的readHTMLTable
函数

这是从一个实际的网页抓取，但它应该是相同的想法
file <- "http://xkcd.com/"
dat <- readLines(file)
c2 <- Corpus(VectorSource(dat))

文件签出。签出。感谢您的回答，但我不知道如何使用readHTMLTable的结果创建语料库。你介意给我举个例子吗？@user1278743只是想澄清一下，你是在专门寻找HTML页面的文本，对吗？你真的不需要为你的语料库提取页面的表格，对吗？@user1278743啊，我明白了-你想要返回什么？只显示文本？html标签也一样吗？你能提供更多关于你期望返回的内容的详细信息吗？是的，我想要文本，带有html标签和其他东西。我想把整个文本放在一个语料库中。谢谢你的回答，但我不知道如何用readHTMLTable的结果创建一个语料库。你介意给我举个例子吗？@user1278743只是想澄清一下，你是在专门寻找HTML页面的文本，对吗？你真的不需要为你的语料库提取页面的表格，对吗？@user1278743啊，我明白了-你想要返回什么？只显示文本？html标签也一样吗？你能提供更多关于你期望返回的内容的详细信息吗？是的，我想要文本，带有html标签和其他东西。我想把全文放在一个语料库里。