将jpeg中的表提取到R中的数据帧中

将jpeg中的表提取到R中的数据帧中,r,R,我有以下两个链接: 数据以表格格式显示,但作为jpeg,我希望捕获这些信息并将其转换为df或TIBLE 我尝试使用tesseract,但效果不好,我的代码如下: library(tesseract) text <- ocr_data(input_1, engine = eng) text <- tesseract::ocr_data("https://pbs.twimg.com/media/Dv3lKfjV4AAkIpY.jpg:large", engine = eng) 库(

我有以下两个链接:

数据以表格格式显示,但作为jpeg,我希望捕获这些信息并将其转换为df或TIBLE

我尝试使用
tesseract
,但效果不好,我的代码如下:

library(tesseract)
text <- ocr_data(input_1, engine = eng)
text <- tesseract::ocr_data("https://pbs.twimg.com/media/Dv3lKfjV4AAkIpY.jpg:large", engine = eng)
库(tesseract)

text尝试一些预处理,如转换为黑白和删除网格。这应该让你开始:

库(magrittr)
图书馆(magick)
#>链接到ImageMagick 6.9.9.38
#>启用的功能:cairo、fontconfig、freetype、fftw、ghostscript、lcms、pango、rsvg、webp、x11
#>禁用的功能:
#下载文件
url[1]“2013年10月3日112.32-0.120.110.04 0.55 0.05 0.45 555 1555.55 143115 23439 505”
#> [2] "10/5/2013 112.94 -0.44 0.15 0.04 0.53 0.05 0.45 1,572 2,255 0.75 143,091 23,335 504"     
#> [3] "10/4/2013 115.53 -0.47 0.10 0.04 0.55 0.05 0.45 27,212 4,955 775,473 142,357 27,334 5 22"
#> [4] "10/5/2013 115.35 -0.57 0.00 0.04 0.51 0.05 0.29 25,522 5,312 4.05 131,320 25,340 513"    
#> [5] "10/2/2013 114.42 -0.51 0.01 0.04 0.44 0.05 0.19 470 994 0.47 121,250 25,901 74.53"       
#> [6] "9/23/2013 11495 -0.03 0.07 0.04 0.57 0.05 0.11 20,075 594 50 55 121,437 25,341 774773"
由(v0.2.1)于2019-01-02创建

编辑 无需系统调用的转换

库(magrittr)
图书馆(magick)
#>链接到ImageMagick 6.9.9.38
#>启用的功能:cairo、fontconfig、freetype、fftw、ghostscript、lcms、pango、rsvg、webp、x11
#>禁用的功能:
#下载文件
url%
图像背景(“白色”)%>%
图像_否定()%>%
图像形态(method=“thinging”,kernel=“Rectangle:20x1+0+0^$Price”11232”、“11294”、“11553”、“11535”、“114.42”、“11495”。。。
#>$Change“-0.12”、“-0.44”、“-0.47”、“-0.57”、“-0.51”、“-0…”。。。。

由(v0.2.1)创建于2019-01-03。您可以在此处尝试一些预处理:我尝试使用
magick
仅使用
ocr\u数据时输出不干净。我可以使用任何其他库吗?
system
命令对我无效,我得到
>系统(convert\u bw)无效参数--填充>移除网格>移除网格系统(移除网格)无效参数--negate
@Birget我遇到的问题是
系统
命令,它没有创建名为
table_bw.jpg
的对象或文件。我在windows上使用R5.1可能magick在windows上有另一种语法,我在fedora上工作。但是,我删除了系统调用,请查看我更新的答案。