如何使用python在HTML文件中查找特定URL?
我的HTML文件中有一个带有.bin附件的URL。如何使用python在HTML文件中查找特定URL?,python,html,parsing,url,Python,Html,Parsing,Url,我的HTML文件中有一个带有.bin附件的URL。我的目标是用Python脚本提取完整链接。我在许多HTML文件中运行此脚本,.bin URL的位置可能会更改。如果我能够获得URL开头和结尾的索引,我可以通过这种方式提取它 我试着在HTML文件中搜索单词,但是有几个.bin URL,我只想要第一个。任何想法都将不胜感激。或任何其他方法 import urllib.request, urllib.error, urllib.parse html_link = "www.mywebsitelink.
我的目标是用Python脚本提取完整链接。我在许多HTML文件中运行此脚本,.bin URL的位置可能会更改。
如果我能够获得URL开头和结尾的索引,我可以通过这种方式提取它 我试着在HTML文件中搜索单词,但是有几个.bin URL,我只想要第一个。任何想法都将不胜感激。或任何其他方法
import urllib.request, urllib.error, urllib.parse
html_link = "www.mywebsitelink.com"
response = urllib.request.urlopen(html_link)
webContent = response.read()
我建议你考虑使用 在您的示例中,您可能会寻找以下内容:
^http://.+\.bin$
您可以使用以下有用的工具对此进行测试并探索正则表达式的每个部分的含义:
您的代码可能如下所示:
import re
bin_url = re.search("^http://.+\.bin$", webContent)
我不太明白?是否要解析HTML文件并提取与.bin文件的第一个链接?如果是,您可以使用
beautifulsoup
库解析HTML文档。具体取决于。有时URL可能会在Javascript代码中有所伪装,有时人们可能只想要那些出现在适当的中的URL。我花了一些时间才弄明白正则表达式。但是成功了!