R 将pdf(带有特殊字符)转换为文本

R 将pdf(带有特殊字符)转换为文本,r,pdf,text,text-analysis,R,Pdf,Text,Text Analysis,您好,我正在尝试将多个PDF转换为文本,我的代码正在工作,但是我的大多数文件都是西班牙语,带有(ñ,í,ó,ú,é)等字符,这些(ñ,í,ó,ú,é)正在损坏。此外,我需要文本文件采用小写形式,以便以后进行文本分析: library(XML) library(httr) library(dplyr) library(tidyr) library(stringr) library(tm) # Get a list of all of the document names

您好,我正在尝试将多个PDF转换为文本,我的代码正在工作,但是我的大多数文件都是西班牙语,带有(ñ,í,ó,ú,é)等字符,这些(ñ,í,ó,ú,é)正在损坏。此外,我需要文本文件采用小写形式,以便以后进行文本分析:

library(XML)
  library(httr)
  library(dplyr)
  library(tidyr)
  library(stringr)
  library(tm)

  # Get a list of all of the document names of the downloaded PDFs
    pdf_files <- list.files(path = paste(getwd(), '/pdf', sep = ''),
                            pattern = 'pdf',
                            full.names = TRUE)

    # Check there are pdf files in directory
    if( length(pdf_files) > 0 ){

      # Loop through each PDF and create a txt version in the same folder

      for(i in pdf_files){

        system(
          paste(
            paste('"', getwd(), '/dependencies/xpdf/bin64/pdftotext.exe"', sep = ''), 
            paste0('"', i, '"')),
          wait = FALSE)

      }
    }


  cat( '\nConversion to text complete.\n\n' )
库(XML)
图书馆(httr)
图书馆(dplyr)
图书馆(tidyr)
图书馆(stringr)
图书馆(tm)
#获取已下载PDF的所有文档名的列表
pdf_文件(0){
#循环浏览每个PDF文件,并在同一文件夹中创建txt版本
用于(pdf_文件中的i){
系统(
粘贴(
粘贴(“”,getwd(),“/dependencies/xpdf/bin64/pdftotext.exe”,sep=”),
粘贴0(“”,i“”),
等待=错误)
}
}
cat('\n转换为文本完成。\n\n')

能否详细说明文本是如何损坏的?或者展示预期文本与腐败文本的例子?文本“国际补救措施国际公约。埃斯特·费门诺、杜兰特·德卡达斯、米西马现实生活和家庭暴力。”我得到了国际补救措施国际公约。Este fenÛmeno、durante dÈcadas、es hoy de m·xima Reality dad y millones de familias en paÌses.从您的示例判断,用于创建PDF的编码可能存在错误,因此无法(轻松)恢复正确的Unicode字符。您是否尝试过使用Poppler项目中的命令行工具(如
pdftotext
)来检查其输出是否显示正确的字符?您可能需要为pdftotext.exe设置
-enc[编码名称]
,默认值可能为“拉丁1”,您可能需要UTF-8