R 从区域标记的单元格中提取文本
我不知道如何描述这个问题。我为有史以来最模糊的标题道歉 这就是数据的样子 [us]DeftekR 从区域标记的单元格中提取文本,r,text,unicode,text-mining,stringr,R,Text,Unicode,Text Mining,Stringr,我不知道如何描述这个问题。我为有史以来最模糊的标题道歉 这就是数据的样子 [us]Deftek [jp](蜂蜜) n [jp](德森特) [jp](希拉博姆) [jp](阿基拉) 滚出去 [jp]Teguru [jp]梅尔蒂 因此,莱恩和鲍尔斯的名字提取得很好,但其他我无法提取任何东西 library(httr) library(tidyverse) library(jsonlite) fromJSON(rawToChar(GET("https://www.speedrun.com/
[jp](蜂蜜)
n
[jp](德森特)
[jp](希拉博姆)
[jp](阿基拉)
滚出去
[jp]Teguru
[jp]梅尔蒂 因此,莱恩和鲍尔斯的名字提取得很好,但其他我无法提取任何东西
library(httr)
library(tidyverse)
library(jsonlite)
fromJSON(rawToChar(GET("https://www.speedrun.com/api/v1/runs?game=o1y9wo6q&category=wkpoo02r&max=200")$content))$data %>%
select(players) %>%
unnest(players) %>%
select(name) %>%
mutate(name_extract = str_extract(name, "[A-Za-z]*")) %>%
na.omit()
您可以从
名称
中删除[us][jp]
部分
library(httr)
library(dplyr)
library(jsonlite)
fromJSON(rawToChar(GET("https://www.speedrun.com/api/v1/runs?game=o1y9wo6q&category=wkpoo02r&max=200")$content))$data %>%
select(players) %>%
unnest(players) %>%
select(name) %>%
mutate(name_extract = sub('\\[.*\\]', '', name)) %>%
na.omit
# name name_extract
# <chr> <chr>
# 1 [us]Deftek Deftek
# 2 [jp]はちみつ (Honey) はちみつ (Honey)
# 3 Hampern Hampern
# 4 [jp]でさんと (Descente) でさんと (Descente)
# 5 [jp]平ボム (Hirabomb) 平ボム (Hirabomb)
# 6 [jp]アキラ (Akira) アキラ (Akira)
# 7 Balls Out Balls Out
# 8 [jp]Teguru Teguru
# 9 [jp]えるも (Erumo) えるも (Erumo)
#10 [jp]Melty Melty
# … with 88 more rows
库(httr)
图书馆(dplyr)
图书馆(jsonlite)
fromJSON(rawToChar(GET)https://www.speedrun.com/api/v1/runs?game=o1y9wo6q&category=wkpoo02r&max=200“”$content))$data%>%
选择(玩家)%>%
最新玩家%>%
选择(名称)%%>%
突变(名称提取=sub('\\[.\\]','',名称))%>%
省略
#姓名提取
#
#1[美国]德夫特克-德夫特克
#2[jp]はちみつ (亲爱的)はちみつ (亲爱的)
#3篮
#4[jp]でさんと (德森特)でさんと (德森特)
#5[jp]平ボム (平博姆)平ボム (平博姆)
#6[日本]アキラ (阿基拉)アキラ (阿基拉)
#7球出界
#8[jp]Teguru Teguru
#9[日本]えるも (埃鲁莫)えるも (埃鲁莫)
#10[jp]梅尔蒂梅尔蒂
#…还有88行