Hive 如何使用配置单元消除URL中的查询?

Hive 如何使用配置单元消除URL中的查询?,hive,Hive,我有几百万个URL,看起来像: www.wikipedia.com/helloworld?somekey=published_links&otherkey=1 www.wikipedia.com/helloworld?wowkey=20005 www.wikipedia.com/helloworld www.wikipedia.com/helloworld 我希望摆脱url查询,使它们看起来都像: www.wikipedia.com/helloworld?somekey=publis

我有几百万个URL,看起来像:

www.wikipedia.com/helloworld?somekey=published_links&otherkey=1
www.wikipedia.com/helloworld?wowkey=20005
www.wikipedia.com/helloworld
www.wikipedia.com/helloworld
我希望摆脱url查询,使它们看起来都像:

www.wikipedia.com/helloworld?somekey=published_links&otherkey=1
www.wikipedia.com/helloworld?wowkey=20005
www.wikipedia.com/helloworld
www.wikipedia.com/helloworld
我该怎么做?用正则表达式这样做安全吗?我应该使用parse_url来代替Hive吗

谢谢

您可以使用函数将http://或https://连接到现有列,并获取主机值和路径值,将它们连接起来以获得所需的结果

select CONCAT(parse_url(concat('http://',col),'HOST'),
              parse_url(concat('http://',col),'PATH')
             )
from tbl