使用R从图像中提取关键字

使用R从图像中提取关键字,r,pdf,ocr,tesseract,keyword,R,Pdf,Ocr,Tesseract,Keyword,假设我有一个包含发票的pdf文件。这是一个pdf文件中的图像。现在,如果我想提取关键字'total',我该怎么做 到目前为止,我已经找到了以下代码: curl::curl_download("https://slicedinvoices.com/pdf/wordpress-pdf-invoice-plugin-sample.pdf", "wordpress-pdf-invoice-plugin-sample.pdf") orig <- pdftools::pdf_text("wordpre

假设我有一个包含发票的pdf文件。这是一个pdf文件中的图像。现在,如果我想提取关键字'total',我该怎么做

到目前为止,我已经找到了以下代码:

curl::curl_download("https://slicedinvoices.com/pdf/wordpress-pdf-invoice-plugin-sample.pdf", "wordpress-pdf-invoice-plugin-sample.pdf")
orig <- pdftools::pdf_text("wordpress-pdf-invoice-plugin-sample.pdf")
# Render pdf to png image
img_file <- pdftools::pdf_convert("wordpress-pdf-invoice-plugin-sample.pdf", format = 'tiff', pages = 1, dpi = 400)
# Extract text from png image
text <- ocr(img_file)
unlink(img_file)
cat(text)
curl::curl\u下载(“https://slicedinvoices.com/pdf/wordpress-pdf-invoice-plugin-sample.pdf“,”wordpress pdf发票插件示例.pdf“)

原始使用
tabulizer
package

library(tabulizer)
library(dplyr)
library(data.table)

out <- extract_tables( "https://slicedinvoices.com/pdf/wordpress-pdf-invoice-plugin-sample.pdf")

out = as.data.table(out)
out %>% filter(V1=='Invoice Number' | V1=='Total Due')

              V1       V2
1 Invoice Number INV-3337
2      Total Due   $93.50
库(tabulizer)
图书馆(dplyr)
库(数据表)
输出%筛选器(V1=='发票编号'| V1=='到期总额')
V1 V2
1发票号INV-3337
2到期总金额93.50美元

此答案在当前场景中很有用。如果发票号和应付总额不在表中,而只是以pdf文件中图像形式的文本出现,该怎么办。那么我们如何才能提取关键词呢?