将jpeg中的表提取到R中的数据帧中
我有以下两个链接: 数据以表格格式显示,但作为jpeg,我希望捕获这些信息并将其转换为df或TIBLE 我尝试使用将jpeg中的表提取到R中的数据帧中,r,R,我有以下两个链接: 数据以表格格式显示,但作为jpeg,我希望捕获这些信息并将其转换为df或TIBLE 我尝试使用tesseract,但效果不好,我的代码如下: library(tesseract) text <- ocr_data(input_1, engine = eng) text <- tesseract::ocr_data("https://pbs.twimg.com/media/Dv3lKfjV4AAkIpY.jpg:large", engine = eng) 库(
tesseract
,但效果不好,我的代码如下:
library(tesseract)
text <- ocr_data(input_1, engine = eng)
text <- tesseract::ocr_data("https://pbs.twimg.com/media/Dv3lKfjV4AAkIpY.jpg:large", engine = eng)
库(tesseract)
text尝试一些预处理,如转换为黑白和删除网格。这应该让你开始:
库(magrittr)
图书馆(magick)
#>链接到ImageMagick 6.9.9.38
#>启用的功能:cairo、fontconfig、freetype、fftw、ghostscript、lcms、pango、rsvg、webp、x11
#>禁用的功能:
#下载文件
url[1]“2013年10月3日112.32-0.120.110.04 0.55 0.05 0.45 555 1555.55 143115 23439 505”
#> [2] "10/5/2013 112.94 -0.44 0.15 0.04 0.53 0.05 0.45 1,572 2,255 0.75 143,091 23,335 504"
#> [3] "10/4/2013 115.53 -0.47 0.10 0.04 0.55 0.05 0.45 27,212 4,955 775,473 142,357 27,334 5 22"
#> [4] "10/5/2013 115.35 -0.57 0.00 0.04 0.51 0.05 0.29 25,522 5,312 4.05 131,320 25,340 513"
#> [5] "10/2/2013 114.42 -0.51 0.01 0.04 0.44 0.05 0.19 470 994 0.47 121,250 25,901 74.53"
#> [6] "9/23/2013 11495 -0.03 0.07 0.04 0.57 0.05 0.11 20,075 594 50 55 121,437 25,341 774773"
由(v0.2.1)于2019-01-02创建
编辑
无需系统调用的转换
库(magrittr)
图书馆(magick)
#>链接到ImageMagick 6.9.9.38
#>启用的功能:cairo、fontconfig、freetype、fftw、ghostscript、lcms、pango、rsvg、webp、x11
#>禁用的功能:
#下载文件
url%
图像背景(“白色”)%>%
图像_否定()%>%
图像形态(method=“thinging”,kernel=“Rectangle:20x1+0+0^$Price”11232”、“11294”、“11553”、“11535”、“114.42”、“11495”。。。
#>$Change“-0.12”、“-0.44”、“-0.47”、“-0.57”、“-0.51”、“-0…”。。。。
由(v0.2.1)创建于2019-01-03。您可以在此处尝试一些预处理:我尝试使用magick
仅使用ocr\u数据时输出不干净。我可以使用任何其他库吗?system
命令对我无效,我得到>系统(convert\u bw)无效参数--填充>移除网格>移除网格系统(移除网格)无效参数--negate
@Birget我遇到的问题是系统
命令,它没有创建名为table_bw.jpg
的对象或文件。我在windows上使用R5.1可能magick在windows上有另一种语法,我在fedora上工作。但是,我删除了系统调用,请查看我更新的答案。