Javascript Python 3:如何提取url图像?

Javascript Python 3:如何提取url图像?,javascript,python,regex,web-scraping,Javascript,Python,Regex,Web Scraping,我要提取的URL具有相同的模式: "begin" : "url_I_want_extract" 它们看起来像: "begin" : "https://k2.website.com/images/0x0/0x0/0/16576946054146395951.jpeg" "begin" : "https://k2.website.com/images/0x0/0x0/0/9460365509030976330.jpeg" "begin" : "https://k2.website.com/imag

我要提取的URL具有相同的模式:

"begin" : "url_I_want_extract"
它们看起来像:

"begin" : "https://k2.website.com/images/0x0/0x0/0/16576946054146395951.jpeg"
"begin" : "https://k2.website.com/images/0x0/0x0/0/9460365509030976330.jpeg"
"begin" : "https://k2.website.com/images/0x0/0x0/0/9361112829030898475.jpeg"
"begin" : "https://k3.website.com/images/0x0/0x0/0/14705723619301900580.jpeg"
"begin" : "https://k3.website.com/images/8x36/922x950/0/1368601155311066426.jpeg"
我用这段代码提取了一些意想不到的东西

r = re.findall('https://k(.?).website.com/images/0x0/0x0/0/(.*?).jpeg', response.text)
我得到的结果是:

 [('2', '16576946054146395951'), ('2', '9460365509030976330'), ('2', '9361112829030898475'), ('3', '14705723619301900580')]
我想要的输出:

https://k2.website.com/images/0x0/0x0/0/16576946054146395951.jpeg
https://k2.website.com/images/0x0/0x0/0/9460365509030976330.jpeg
https://k2.website.com/images/0x0/0x0/0/9361112829030898475.jpeg
https://k3.website.com/images/0x0/0x0/0/14705723619301900580.jpeg
https://k3.website.com/images/8x36/922x950/0/1368601155311066426.jpeg

如何使用正则表达式在“begin”单词后刮取URL?谢谢:)

括号围绕着由
findall
返回的捕获组。现在,您的捕获组是
k(.>)
(.*).jpeg
。删除这些括号,而是捕获整个url

此外,要将url与“/0x0/0x0/0/”和“/8x36/922x950/0/”匹配,请将正则表达式中的“/0x0/0x0/0/”替换为“/.*/./”:


这一个可能在更通用的服务器路径构造上起作用:

https?.*(jpeg|jpg|png|tiff|gif)
开始捕获http(对于ssl服务器,使用可选的“s”)并完成捕获,以确保图像文件格式。(请注意,作为示例,我包括了5种类型…)


希望有帮助

我认为您要求的是只提取
begin:
之后的URL。为此,您需要:

r = re.findall('"begin" : "(https://k.*?.jpeg)"', response.text)

输出有什么问题?您创建两个组-
k(.?)
(.*).jpeg
,并在每个匹配中获得两个结果-
('2',jpg number')
。如果您不希望将
分组到结果中,或者
r=[match[1]用于r中的匹配]
谢谢:)。它起了作用,但仍不符合我的期望。它没有提取最后一个url()如何使用regex在“begin”单词之后刮取url?是的,这正是我想要的:)
r = re.findall('"begin" : "(https://k.*?.jpeg)"', response.text)