提取主URL地址

提取主URL地址,r,url,stringr,R,Url,Stringr,我有一个URL列表,我想提取主URL以查看每个URL被使用了多少次。正如您所想象的,有这么多的URL使用不同的符号。我尝试并编写了以下代码来提取主URL: library(stringr) library(rebus) # Step 2: creating a pattern for URL extraction pat<- "//" %R% capture(one_or_more(char_class(WRD,DOT))) #step 3: Creating a

我有一个URL列表,我想提取主URL以查看每个URL被使用了多少次。正如您所想象的,有这么多的URL使用不同的符号。我尝试并编写了以下代码来提取主URL:

library(stringr)
library(rebus)

# Step 2: creating a pattern for URL extraction
pat<- "//" %R% capture(one_or_more(char_class(WRD,DOT)))

#step 3: Creating a new variable from URL column of df
#(it should be atomic vector)
URL_var<-df[["URLs"]]  

#step 4: using rebus to extract main URL
URL_extract<-str_match(URL_var,pattern = pat)

#step 5: changing large vector to dataframe and changing column name:
URL_data<-data.frame(URL_extract[,2])
names(URL_data)[names(URL_data) == "URL_extract...2."] <- "Main_URL"
库(stringr)
图书馆(REBS)
#步骤2:创建URL提取模式

帕特我想你可以简单地使用

库(stringr)

URL\u varTry没有
rebus
,只是
URL\u数据我使用rebus的原因是我更容易理解它。关于您的代码,不幸的是,此解决方案不起作用。原因是,在最后,我想对同一个URL进行分组,看看与其他URL相比,哪个主URL使用得更多。根据您提到的代码,结果如下:www.google.com/235 www.google.com/465;然而,我关心的只是www.google.com…好的,那么使用
”(?太好了,这会更好。你能详细说明一下你使用的语法并告诉我它的意思吗?
(?<=//)[^\s/:]+