提取主URL地址
我有一个URL列表,我想提取主URL以查看每个URL被使用了多少次。正如您所想象的,有这么多的URL使用不同的符号。我尝试并编写了以下代码来提取主URL:提取主URL地址,r,url,stringr,R,Url,Stringr,我有一个URL列表,我想提取主URL以查看每个URL被使用了多少次。正如您所想象的,有这么多的URL使用不同的符号。我尝试并编写了以下代码来提取主URL: library(stringr) library(rebus) # Step 2: creating a pattern for URL extraction pat<- "//" %R% capture(one_or_more(char_class(WRD,DOT))) #step 3: Creating a
library(stringr)
library(rebus)
# Step 2: creating a pattern for URL extraction
pat<- "//" %R% capture(one_or_more(char_class(WRD,DOT)))
#step 3: Creating a new variable from URL column of df
#(it should be atomic vector)
URL_var<-df[["URLs"]]
#step 4: using rebus to extract main URL
URL_extract<-str_match(URL_var,pattern = pat)
#step 5: changing large vector to dataframe and changing column name:
URL_data<-data.frame(URL_extract[,2])
names(URL_data)[names(URL_data) == "URL_extract...2."] <- "Main_URL"
库(stringr)
图书馆(REBS)
#步骤2:创建URL提取模式
帕特我想你可以简单地使用
库(stringr)
URL\u varTry没有rebus
,只是URL\u数据我使用rebus的原因是我更容易理解它。关于您的代码,不幸的是,此解决方案不起作用。原因是,在最后,我想对同一个URL进行分组,看看与其他URL相比,哪个主URL使用得更多。根据您提到的代码,结果如下:www.google.com/235 www.google.com/465;然而,我关心的只是www.google.com…好的,那么使用”(?太好了,这会更好。你能详细说明一下你使用的语法并告诉我它的意思吗?
(?<=//)[^\s/:]+