Python 获取已保存网页的原始URL_Python_Url_Python 3.x_Web Scraping_Lxml

Python 获取已保存网页的原始URL

python url python-3.x web-scraping

Python 获取已保存网页的原始URL,python,url,python-3.x,web-scraping,lxml,Python,Url,Python 3.x,Web Scraping,Lxml,我正在使用Python和lxml库解析保存的网页 storedHtmlDoc.docinfo.URL 已保存网页的docinfo显示已保存网页的磁盘位置 storedHtmlDoc.docinfo.URL 有没有办法从保存的页面中提取原始URl？如果您没有将下载页面的URl存储在自己的某个位置，则无法使用该URl 如果可以控制下载过程，可以将下载页面的URL放在页面的元标记中。OK。我有这种自由。我正在使用urllib.request获取该网页，并使用lxml解析（或许还可以操纵）它。您建议

我正在使用Python和lxml库解析保存的网页

storedHtmlDoc.docinfo.URL

已保存网页的docinfo显示已保存网页的磁盘位置

storedHtmlDoc.docinfo.URL

有没有办法从保存的页面中提取原始URl？

如果您没有将下载页面的URl存储在自己的某个位置，则无法使用该URl

如果可以控制下载过程，可以将下载页面的URL放在页面的元标记中。

OK。我有这种自由。我正在使用

urllib.request

获取该网页，并使用lxml解析（或许还可以操纵）它。您建议我如何向获取的网页添加元标记？我知道使用regexes for HTML不是一个好主意，但您可以找到打开

标记并在其后面插入类似

的内容。我不知道用于存储原始URL的标准

META

标记，但在您的情况下，使用非标准标记不会破坏任何内容。另一种更简单的方法是在文件末尾添加注释，如：

。但是，我不确定您是否可以使用lxml获取then URL。根据您的建议，我编写了一个函数，从HTML文档中获取

标记，并向其添加

标记。谢谢