R 如何从PDF中干净地提取多页表？_R_Tabulizer

R 如何从PDF中干净地提取多页表？

R 如何从PDF中干净地提取多页表？,r,tabulizer,R,Tabulizer,我一直在尝试使用tabulizer来避免硬编码解析，这种解析可能会随着下一个报告而改变。我想知道你们是否有更好的想法 library(tabulizer) library(tidyverse) who <- "https://www.who.int/docs/default-source/coronaviruse/situation-reports/20200309-sitrep-49-covid-19.pdf" page1 <- tabulizer::extract_table

我一直在尝试使用

tabulizer

来避免硬编码解析，这种解析可能会随着下一个报告而改变。我想知道你们是否有更好的想法

library(tabulizer)
library(tidyverse)

who <- "https://www.who.int/docs/default-source/coronaviruse/situation-reports/20200309-sitrep-49-covid-19.pdf"

page1 <- tabulizer::extract_tables(who, pages = 4, output = "data.frame") %>% 
  as.data.frame() %>% 
  slice(5:n()) %>% 
  select(-`X.1`)

page2 <- tabulizer::extract_tables(who, pages = 5, output = "data.frame") %>% 
  as.data.frame() %>% 
  rbind(colnames(.))

page3 <- tabulizer::extract_tables(who, pages = 6, output = "data.frame") %>% 
  as.data.frame() %>% 
  rbind(colnames(.))

colnames(page2) <- colnames(page1)
colnames(page3) <- colnames(page1)

dat <- page1 %>% rbind(page2) %>% rbind(page3)

库（tabulizer）
图书馆（tidyverse）
谁%
切片（5:n（））%>%
选择（`X.1`）
第2页%
as.data.frame（）%>%
rbind（colnames（.））
第3页%
as.data.frame（）%>%
rbind（colnames（.））
根据我的经验，我必须分别解析每个页面，然后rbind
结果。它需要删除重复的列标题（和其他页面杂项）。我不知道有什么可靠的方法可以“知道”页面I
上的一个表在呈现的PDF中被页面I+1
上的一个非常相似的表完美地延续（然后，我又从tabulizer:：
转移到pdftools:：PDF\u text
，因为某种原因，我现在想不起来了。）决定用Abode Pro解析它更容易。