R-读取文件夹中的html文件,计算频率,并导出输出

R-读取文件夹中的html文件,计算频率,并导出输出,r,csv,automation,frequency,text-mining,R,Csv,Automation,Frequency,Text Mining,我计划用R做一些简单的文本挖掘任务。具体而言,我想做以下工作: 自动读取文件夹中的每个html文件,然后 对于每个文件,对某些特定单词进行频率统计(例如,“金融约束”“石油出口”等),然后 自动将输出写入csv。使用以下数据结构的文件(例如,文件1的“财务约束”显示3次,“石油出口”显示4次,等等): 文件\名称计数\财务\约束计数\石油\出口 1 3 4 203 340 4 1 2 有人能告诉我应该从哪里开始吗?到目前为止,我想我已经知道了如何清理html文件,然后进行计数,但我仍然不知道如何

我计划用R做一些简单的文本挖掘任务。具体而言,我想做以下工作:

  • 自动读取文件夹中的每个html文件,然后
  • 对于每个文件,对某些特定单词进行频率统计(例如,“金融约束”“石油出口”等),然后
  • 自动将输出写入csv。使用以下数据结构的文件(例如,文件1的“财务约束”显示3次,“石油出口”显示4次,等等):
  • 文件\名称计数\财务\约束计数\石油\出口
    1 3 4
    203
    340
    4 1 2

    有人能告诉我应该从哪里开始吗?到目前为止,我想我已经知道了如何清理html文件,然后进行计数,但我仍然不知道如何自动化这个过程(我真的需要这个,因为我有大约5个文件夹,每个文件夹中包含大约1000个html文件)?谢谢

    试试这个:

    gethtml<-function(path=".") {
      files<-list.files(path)
      setwd(path)
      html<-grepl("*.html",files)
      files<-files[html]
      htmlcount<-vector()
      for (i in files) {
        htmlcount[i]<- ##### add function that reads html file and counts it
      }
      return(sum(htmlcount))
    }
    

    gethtmlR不用于执行严格的文本解析。因此,用于此类任务的工具是有限的。如果您坚持使用R,那么您最好熟悉正则表达式,并了解一下


    但是,我强烈建议在库中使用Python,它是专门为此任务设计的。

    这听起来更像是一个小型项目,而不是一个关于编程的问题。您的列表中有3个独立的问题。你问的每个问题都有几个答案。当你遇到麻烦时,一定要四处搜索,写下你的脚本,并询问。我认为你应该从这里开始。谢谢!让我试试看,我很感谢你给我指引了正确的方向谢谢,我同意,但我现在处理的是相当标准的业务文档,事实上,我一直在使用你推荐的“HTMLOTEXT()”来完成我的文本挖掘任务。我不知道你只是想自动化文件访问。