Javascript Python 3:如何提取url图像?
我要提取的URL具有相同的模式:Javascript Python 3:如何提取url图像?,javascript,python,regex,web-scraping,Javascript,Python,Regex,Web Scraping,我要提取的URL具有相同的模式: "begin" : "url_I_want_extract" 它们看起来像: "begin" : "https://k2.website.com/images/0x0/0x0/0/16576946054146395951.jpeg" "begin" : "https://k2.website.com/images/0x0/0x0/0/9460365509030976330.jpeg" "begin" : "https://k2.website.com/imag
"begin" : "url_I_want_extract"
它们看起来像:
"begin" : "https://k2.website.com/images/0x0/0x0/0/16576946054146395951.jpeg"
"begin" : "https://k2.website.com/images/0x0/0x0/0/9460365509030976330.jpeg"
"begin" : "https://k2.website.com/images/0x0/0x0/0/9361112829030898475.jpeg"
"begin" : "https://k3.website.com/images/0x0/0x0/0/14705723619301900580.jpeg"
"begin" : "https://k3.website.com/images/8x36/922x950/0/1368601155311066426.jpeg"
我用这段代码提取了一些意想不到的东西
r = re.findall('https://k(.?).website.com/images/0x0/0x0/0/(.*?).jpeg', response.text)
我得到的结果是:
[('2', '16576946054146395951'), ('2', '9460365509030976330'), ('2', '9361112829030898475'), ('3', '14705723619301900580')]
我想要的输出:
https://k2.website.com/images/0x0/0x0/0/16576946054146395951.jpeg
https://k2.website.com/images/0x0/0x0/0/9460365509030976330.jpeg
https://k2.website.com/images/0x0/0x0/0/9361112829030898475.jpeg
https://k3.website.com/images/0x0/0x0/0/14705723619301900580.jpeg
https://k3.website.com/images/8x36/922x950/0/1368601155311066426.jpeg
如何使用正则表达式在“begin”单词后刮取URL?谢谢:)括号围绕着由
findall
返回的捕获组。现在,您的捕获组是k(.>)
和(.*).jpeg
。删除这些括号,而是捕获整个url
此外,要将url与“/0x0/0x0/0/”和“/8x36/922x950/0/”匹配,请将正则表达式中的“/0x0/0x0/0/”替换为“/.*/./”:
这一个可能在更通用的服务器路径构造上起作用:
https?.*(jpeg|jpg|png|tiff|gif)
开始捕获http(对于ssl服务器,使用可选的“s”)并完成捕获,以确保图像文件格式。(请注意,作为示例,我包括了5种类型…)
希望有帮助 我认为您要求的是只提取
begin:
之后的URL。为此,您需要:
r = re.findall('"begin" : "(https://k.*?.jpeg)"', response.text)
输出有什么问题?您创建两个组-
k(.?)
和(.*).jpeg
,并在每个匹配中获得两个结果-('2',jpg number')
。如果您不希望将?
分组到结果中,或者r=[match[1]用于r中的匹配]
谢谢:)。它起了作用,但仍不符合我的期望。它没有提取最后一个url()如何使用regex在“begin”单词之后刮取url?是的,这正是我想要的:)
r = re.findall('"begin" : "(https://k.*?.jpeg)"', response.text)