Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/74.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
从R中的Pdf文件中提取数据,并在R中进行文本挖掘以进行图像处理_R_Image Processing_Ocr_Tesseract_Rmagick - Fatal编程技术网

从R中的Pdf文件中提取数据,并在R中进行文本挖掘以进行图像处理

从R中的Pdf文件中提取数据,并在R中进行文本挖掘以进行图像处理,r,image-processing,ocr,tesseract,rmagick,R,Image Processing,Ocr,Tesseract,Rmagick,我正在使用Tesseract和pdf_convert将pdf文件转换为文本数据以提取信息,但在pdf_convert之后,我需要将数据变暗并调整大小以获取信息。我正在使用以下代码: pngfile <- pdftools::pdf_convert('C:/Users/tmpxk9/Desktop/Sunil_TS/Intern/IRD_1/XXXX.pdf', dpi = 600) input <- magick::image_read("pngfile") text <

我正在使用Tesseract和pdf_convert将pdf文件转换为文本数据以提取信息,但在pdf_convert之后,我需要将数据变暗并调整大小以获取信息。我正在使用以下代码:

pngfile <- pdftools::pdf_convert('C:/Users/tmpxk9/Desktop/Sunil_TS/Intern/IRD_1/XXXX.pdf', dpi = 600)



input <- magick::image_read("pngfile")

text <- input %>%
  magick::image_resize("2000x") %>%
  magick::image_convert(type = 'Grayscale') %>%
  magick::image_trim(fuzz = 40) %>%
  magick::image_write(format = 'png', density = '300x300') %>%
  tesseract::ocr() 

cat(text)
pngfile%
magick::图像修剪(模糊=40)%>%
magick::image_write(格式='png',密度='300x300')%>%
tesseract::ocr()
cat(文本)
但是image_read并不是读取我创建的pngfile,但是如果我给任何一个单独的带有.png的文件,它就会工作

注意:pdf文件有8页,我需要将它们全部变暗以提取信息

你能告诉我怎么走吗