R 从区域标记的单元格中提取文本_R_Text_Unicode_Text Mining_Stringr

R 从区域标记的单元格中提取文本

r text unicode

R 从区域标记的单元格中提取文本,r,text,unicode,text-mining,stringr,R,Text,Unicode,Text Mining,Stringr,我不知道如何描述这个问题。我为有史以来最模糊的标题道歉这就是数据的样子 [us]Deftek [jp]（蜂蜜） n [jp]（德森特） [jp]（希拉博姆） [jp]（阿基拉）滚出去 [jp]Teguru [jp]梅尔蒂因此，莱恩和鲍尔斯的名字提取得很好，但其他我无法提取任何东西 library(httr) library(tidyverse) library(jsonlite) fromJSON(rawToChar(GET("https://www.speedrun.com/

我不知道如何描述这个问题。我为有史以来最模糊的标题道歉

这就是数据的样子

[us]Deftek
[jp]（蜂蜜）
n
[jp]（德森特）
[jp]（希拉博姆）
[jp]（阿基拉）
滚出去
[jp]Teguru
[jp]梅尔蒂

因此，莱恩和鲍尔斯的名字提取得很好，但其他我无法提取任何东西

library(httr)
library(tidyverse)
library(jsonlite)

fromJSON(rawToChar(GET("https://www.speedrun.com/api/v1/runs?game=o1y9wo6q&category=wkpoo02r&max=200")$content))$data %>% 
  select(players) %>% 
  unnest(players) %>% 
  select(name) %>% 
  mutate(name_extract = str_extract(name, "[A-Za-z]*")) %>% 
  na.omit()

您可以从

名称

中删除

[us][jp]

部分

library(httr)
library(dplyr)
library(jsonlite)

fromJSON(rawToChar(GET("https://www.speedrun.com/api/v1/runs?game=o1y9wo6q&category=wkpoo02r&max=200")$content))$data %>% 
   select(players) %>% 
   unnest(players) %>%
   select(name) %>% 
   mutate(name_extract = sub('\\[.*\\]', '', name)) %>%
   na.omit

#   name                    name_extract       
#   <chr>                   <chr>              
# 1 [us]Deftek              Deftek             
# 2 [jp]はちみつ (Honey)    はちみつ (Honey)   
# 3 Hampern                 Hampern            
# 4 [jp]でさんと (Descente) でさんと (Descente)
# 5 [jp]平ボム (Hirabomb)   平ボム (Hirabomb)  
# 6 [jp]アキラ (Akira)      アキラ (Akira)     
# 7 Balls Out               Balls Out          
# 8 [jp]Teguru              Teguru             
# 9 [jp]えるも (Erumo)      えるも (Erumo)     
#10 [jp]Melty               Melty              
# … with 88 more rows

库（httr）
图书馆（dplyr）
图书馆（jsonlite）
fromJSON（rawToChar（GET）https://www.speedrun.com/api/v1/runs?game=o1y9wo6q&category=wkpoo02r&max=200“”$content））$data%>%
选择（玩家）%>%
最新玩家%>%
选择（名称）%%>%
突变（名称提取=sub（'\\[.\\]'，''，名称））%>%
省略
#姓名提取
#                                    
#1[美国]德夫特克-德夫特克
#2[jp]はちみつ （亲爱的）はちみつ （亲爱的）
#3篮
#4[jp]でさんと （德森特）でさんと （德森特）
#5[jp]平ボム （平博姆）平ボム （平博姆）
#6[日本]アキラ （阿基拉）アキラ （阿基拉）
#7球出界
#8[jp]Teguru Teguru
#9[日本]えるも （埃鲁莫）えるも （埃鲁莫）
#10[jp]梅尔蒂梅尔蒂
#…还有88行