Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/url/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用R从PDF中删除数据_R_Pdf_Web Scraping_Screen Scraping - Fatal编程技术网

使用R从PDF中删除数据

使用R从PDF中删除数据,r,pdf,web-scraping,screen-scraping,R,Pdf,Web Scraping,Screen Scraping,我想从这个PDF中提取数据(滑雪跳跃) 我对所有数据都感兴趣,除了bib、俱乐部和出生日期 我正在尝试使用pdftools库 pdf_text("raw/data.pdf") %>% strsplit(split = "\n") 我被困在这里。问题是列点(门补偿)有时为空,有时为空。我不知道该怎么处理 我想要的输出是这样的: Rank|Athlete |Nation|(...)|Jump_1|Round_1|Jump_2|Round_2|Tot_points 1 |KLI

我想从这个PDF中提取数据(滑雪跳跃)

我对所有数据都感兴趣,除了bib俱乐部和出生日期

我正在尝试使用pdftools

pdf_text("raw/data.pdf") %>% strsplit(split = "\n")
我被困在这里。问题是列(门补偿)有时为空,有时为空。我不知道该怎么处理

我想要的输出是这样的:

Rank|Athlete       |Nation|(...)|Jump_1|Round_1|Jump_2|Round_2|Tot_points
1   |KLIMOV Evgeniy|RUS   |(...)|127.5 |130    |131.5 |133.4  |263.4
有人可以帮我吗?

请查看:

library(tidyverse)
text<-pdftools::pdf_text("http://medias4.fis-ski.com/pdf/2019/JP/3088/2019JP3088RL.pdf")

list<-str_remove_all(text,"\\X+?TOTAL\\s+RANK\n") %>% 
  str_trim() %>% 
  str_split("\n\\s{10,}(?=\\p{L})") %>% 
  modify_depth(1,~str_split(.x,"\\s{2,}") %>%
                   map(~.x[1:13] %>% 
                         set_names(paste0("x",1:13))) 
                   )
## Just the first page
df<-bind_rows(!!!list[[1]])
库(tidyverse)
文本%
str_split(“\n\\s{10,}(?=\\p{L})”)%>%
修改深度(1,~str\u split(.x,“\\s{2,}”)%>%
地图(~.x[1:13]]>%
设置名称(粘贴0(“x”,1:13)))
)
##就在第一页
df