R 将pdf（带有特殊字符）转换为文本_R_Pdf_Text_Text Analysis

R 将pdf（带有特殊字符）转换为文本

r pdf text

R 将pdf（带有特殊字符）转换为文本,r,pdf,text,text-analysis,R,Pdf,Text,Text Analysis,您好，我正在尝试将多个PDF转换为文本，我的代码正在工作，但是我的大多数文件都是西班牙语，带有（ñ，í，ó，ú，é）等字符，这些（ñ，í，ó，ú，é）正在损坏。此外，我需要文本文件采用小写形式，以便以后进行文本分析： library(XML) library(httr) library(dplyr) library(tidyr) library(stringr) library(tm) # Get a list of all of the document names

您好，我正在尝试将多个PDF转换为文本，我的代码正在工作，但是我的大多数文件都是西班牙语，带有（ñ，í，ó，ú，é）等字符，这些（ñ，í，ó，ú，é）正在损坏。此外，我需要文本文件采用小写形式，以便以后进行文本分析：

library(XML)
  library(httr)
  library(dplyr)
  library(tidyr)
  library(stringr)
  library(tm)

  # Get a list of all of the document names of the downloaded PDFs
    pdf_files <- list.files(path = paste(getwd(), '/pdf', sep = ''),
                            pattern = 'pdf',
                            full.names = TRUE)

    # Check there are pdf files in directory
    if( length(pdf_files) > 0 ){

      # Loop through each PDF and create a txt version in the same folder

      for(i in pdf_files){

        system(
          paste(
            paste('"', getwd(), '/dependencies/xpdf/bin64/pdftotext.exe"', sep = ''), 
            paste0('"', i, '"')),
          wait = FALSE)

      }
    }


  cat( '\nConversion to text complete.\n\n' )

库（XML）
图书馆（httr）
图书馆（dplyr）
图书馆（tidyr）
图书馆（stringr）
图书馆（tm）
#获取已下载PDF的所有文档名的列表
pdf_文件（0）{
#循环浏览每个PDF文件，并在同一文件夹中创建txt版本
用于（pdf_文件中的i）{
系统(
粘贴(
粘贴（“”，getwd（），“/dependencies/xpdf/bin64/pdftotext.exe”，sep=”），
粘贴0（“”，i“”），
等待=错误）
}
}
cat（'\n转换为文本完成。\n\n'）

能否详细说明文本是如何损坏的？或者展示预期文本与腐败文本的例子？文本“国际补救措施国际公约。埃斯特·费门诺、杜兰特·德卡达斯、米西马现实生活和家庭暴力。”我得到了国际补救措施国际公约。Este fenÛmeno、durante dÈcadas、es hoy de m·xima Reality dad y millones de familias en paÌses.从您的示例判断，用于创建PDF的编码可能存在错误，因此无法（轻松）恢复正确的Unicode字符。您是否尝试过使用Poppler项目中的命令行工具（如

pdftotext

）来检查其输出是否显示正确的字符？您可能需要为pdftotext.exe设置

-enc[编码名称]

，默认值可能为“拉丁1”，您可能需要UTF-8