从PDF中提取文本会在R中返回奇怪的结果_R_Pdf_Text Mining

从PDF中提取文本会在R中返回奇怪的结果

r pdf

从PDF中提取文本会在R中返回奇怪的结果,r,pdf,text-mining,R,Pdf,Text Mining,我试图从一堆pdf中挖掘文本，但当我使用pdftools包中的pdf\u text将它们读入R时，它生成的文本非常奇怪，与pdf文件中的实际内容完全不同。Onedrive链接：。以下是我使用的示例代码： library(pdftools) pdf1 <- pdf_text("https://dl.dropboxusercontent.com/s/308gpdijvnw18mf/2018REQ118030709.pdf?dl=0") pdf1 ## c("(’-*)&am

我试图从一堆pdf中挖掘文本，但当我使用

pdftools

包中的

pdf\u text

将它们读入R时，它生成的文本非常奇怪，与pdf文件中的实际内容完全不同。Onedrive链接：。以下是我使用的示例代码：

library(pdftools)
pdf1 <- pdf_text("https://dl.dropboxusercontent.com/s/308gpdijvnw18mf/2018REQ118030709.pdf?dl=0")
pdf1   

     ## c("(’-*)&&$(&’-’’’’)*,&’$)’&/.\r\n     itiCHMON&\\     4Q\\a WN BQKPUWVL
     ##FQZOQVQI                                          )’(/ 7QZ[\\ 9ITN BMIT
     ##6[\\I\\M DI‘ 3QTT\r\n                    5Q^Q[QWV WN 4WTTMK\\QWV[\r\n                   
     ##FE 8_h -10+0\r\n                    HYSX]_^T’ L7 -.-1,(10+0                                                 
     ##3QTT >]UJMZ (/’*’.’0\r\n   IBKHHO F7L;HI ?D9                                                        
     ##@TMI[M ZMKWZL 3QTT >]UJMZ QV UMUW [MK\\QWV WN KPMKS\r\n   ,0+, L7BB;O H:\r\n  
     ##H?9>CED: L7 -.---(0/+1                                                         
     ##IVL QVKT]LM QV ITT WVTQVM JIVSQVO \\ZIV[IK\\QWV[\r\n                                
     ##@ZWXMZ\\a :VNWZUI\\QWV                                                          
     ##DI‘ :VNWZUI\\QWV\r\n     JQh OUQb5                                                          
     ##-+,3 J_dQ\\ 7TZecdUT 7^^eQ\\ 9XQbWUc5                                     
     ##!,+’/+/)++\r\n     3QTT >]UJMZ1                                .
     ##.. <truncated>

库（pdftools）
pdf1您的pdf是一个pdf图像。看起来像是扫描pdftools
无法将其直接转换为文本。您可以使用包tesseract
获取数据，并使用pdftools
将其转换为png
下面的代码将第一页转换为文本。我会让你完成剩下的几页。记住，OCR到文本并不是完美的。你需要检查结果
library(pdftools)
library(tesseract)
pdf_convert("https://dl.dropboxusercontent.com/s/308gpdijvnw18mf/2018REQ118030709.pdf?dl=0", 
                       pages = 1, 
                       dpi = 600, 
                       filenames = "page1.png")
text <- ocr("page1.png")
cat(text)

库（pdftools）
图书馆（tesseract）
pdf_转换（“https://dl.dropboxusercontent.com/s/308gpdijvnw18mf/2018REQ118030709.pdf?dl=0", 
页数=1，
dpi=600，
filenames=“page1.png”）
文本我们无法重现您的问题，因为我们无法访问您的pdf文档。尝试制作一个。我已经编辑了pdf的url，这一个现在可以很好地工作，并且是100%可复制的。谢谢你。无法访问该文件。有问题的字体既不包含编码也不包含ToUnicode条目。因此，从pdf中提取文本充其量只是猜测。显然，pdf\u text
猜错了。@phiver请再试一次，它现在真的可以正常工作了“您的pdf是一个pdf图像”-这是不正确的。只有背景是图像。文本是文本。尽管如此，由于缺少pdf字体编码，作为图像和ocr渲染可能会比文本提取更好地返回内容。非常感谢您的回答。但由于某些原因，这会使我的RStudio和RGui崩溃。但是，当我在本地阅读pdf时，它不会。另外，pdf\u convert
似乎没有正确地将pdf呈现为“png”，因此，ocr
没有具体的工作要做。