R 将pdf(带有特殊字符)转换为文本
您好,我正在尝试将多个PDF转换为文本,我的代码正在工作,但是我的大多数文件都是西班牙语,带有(ñ,í,ó,ú,é)等字符,这些(ñ,í,ó,ú,é)正在损坏。此外,我需要文本文件采用小写形式,以便以后进行文本分析:R 将pdf(带有特殊字符)转换为文本,r,pdf,text,text-analysis,R,Pdf,Text,Text Analysis,您好,我正在尝试将多个PDF转换为文本,我的代码正在工作,但是我的大多数文件都是西班牙语,带有(ñ,í,ó,ú,é)等字符,这些(ñ,í,ó,ú,é)正在损坏。此外,我需要文本文件采用小写形式,以便以后进行文本分析: library(XML) library(httr) library(dplyr) library(tidyr) library(stringr) library(tm) # Get a list of all of the document names
library(XML)
library(httr)
library(dplyr)
library(tidyr)
library(stringr)
library(tm)
# Get a list of all of the document names of the downloaded PDFs
pdf_files <- list.files(path = paste(getwd(), '/pdf', sep = ''),
pattern = 'pdf',
full.names = TRUE)
# Check there are pdf files in directory
if( length(pdf_files) > 0 ){
# Loop through each PDF and create a txt version in the same folder
for(i in pdf_files){
system(
paste(
paste('"', getwd(), '/dependencies/xpdf/bin64/pdftotext.exe"', sep = ''),
paste0('"', i, '"')),
wait = FALSE)
}
}
cat( '\nConversion to text complete.\n\n' )
库(XML)
图书馆(httr)
图书馆(dplyr)
图书馆(tidyr)
图书馆(stringr)
图书馆(tm)
#获取已下载PDF的所有文档名的列表
pdf_文件(0){
#循环浏览每个PDF文件,并在同一文件夹中创建txt版本
用于(pdf_文件中的i){
系统(
粘贴(
粘贴(“”,getwd(),“/dependencies/xpdf/bin64/pdftotext.exe”,sep=”),
粘贴0(“”,i“”),
等待=错误)
}
}
cat('\n转换为文本完成。\n\n')
能否详细说明文本是如何损坏的?或者展示预期文本与腐败文本的例子?文本“国际补救措施国际公约。埃斯特·费门诺、杜兰特·德卡达斯、米西马现实生活和家庭暴力。”我得到了国际补救措施国际公约。Este fenÛmeno、durante dÈcadas、es hoy de m·xima Reality dad y millones de familias en paÌses.从您的示例判断,用于创建PDF的编码可能存在错误,因此无法(轻松)恢复正确的Unicode字符。您是否尝试过使用Poppler项目中的命令行工具(如pdftotext
)来检查其输出是否显示正确的字符?您可能需要为pdftotext.exe设置-enc[编码名称]
,默认值可能为“拉丁1”,您可能需要UTF-8