R-读取文件夹中的html文件，计算频率，并导出输出_R_Csv_Automation_Frequency_Text Mining

R-读取文件夹中的html文件，计算频率，并导出输出

r csv automation

R-读取文件夹中的html文件，计算频率，并导出输出,r,csv,automation,frequency,text-mining,R,Csv,Automation,Frequency,Text Mining,我计划用R做一些简单的文本挖掘任务。具体而言，我想做以下工作：自动读取文件夹中的每个html文件，然后对于每个文件，对某些特定单词进行频率统计（例如，“金融约束”“石油出口”等），然后自动将输出写入csv。使用以下数据结构的文件（例如，文件1的“财务约束”显示3次，“石油出口”显示4次，等等）：文件\名称计数\财务\约束计数\石油\出口 1 3 4 203 340 4 1 2 有人能告诉我应该从哪里开始吗？到目前为止，我想我已经知道了如何清理html文件，然后进行计数，但我仍然不知道如何

我计划用R做一些简单的文本挖掘任务。具体而言，我想做以下工作：

自动读取文件夹中的每个html文件，然后

对于每个文件，对某些特定单词进行频率统计（例如，“金融约束”“石油出口”等），然后

自动将输出写入csv。使用以下数据结构的文件（例如，文件1的“财务约束”显示3次，“石油出口”显示4次，等等）：

文件\名称计数\财务\约束计数\石油\出口
1 3 4
203
340
4 1 2

有人能告诉我应该从哪里开始吗？到目前为止，我想我已经知道了如何清理html文件，然后进行计数，但我仍然不知道如何自动化这个过程（我真的需要这个，因为我有大约5个文件夹，每个文件夹中包含大约1000个html文件）？谢谢

试试这个：

gethtml<-function(path=".") {
  files<-list.files(path)
  setwd(path)
  html<-grepl("*.html",files)
  files<-files[html]
  htmlcount<-vector()
  for (i in files) {
    htmlcount[i]<- ##### add function that reads html file and counts it
  }
  return(sum(htmlcount))
}

gethtmlR不用于执行严格的文本解析。因此，用于此类任务的工具是有限的。如果您坚持使用R，那么您最好熟悉正则表达式，并了解一下
但是，我强烈建议在库中使用Python，它是专门为此任务设计的。
这听起来更像是一个小型项目，而不是一个关于编程的问题。您的列表中有3个独立的问题。你问的每个问题都有几个答案。当你遇到麻烦时，一定要四处搜索，写下你的脚本，并询问。我认为你应该从这里开始。谢谢！让我试试看，我很感谢你给我指引了正确的方向谢谢，我同意，但我现在处理的是相当标准的业务文档，事实上，我一直在使用你推荐的“HTMLOTEXT（）”来完成我的文本挖掘任务。我不知道你只是想自动化文件访问。