Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/url/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 获取已保存网页的原始URL_Python_Url_Python 3.x_Web Scraping_Lxml - Fatal编程技术网

Python 获取已保存网页的原始URL

Python 获取已保存网页的原始URL,python,url,python-3.x,web-scraping,lxml,Python,Url,Python 3.x,Web Scraping,Lxml,我正在使用Python和lxml库解析保存的网页 storedHtmlDoc.docinfo.URL 已保存网页的docinfo显示已保存网页的磁盘位置 storedHtmlDoc.docinfo.URL 有没有办法从保存的页面中提取原始URl?如果您没有将下载页面的URl存储在自己的某个位置,则无法使用该URl 如果可以控制下载过程,可以将下载页面的URL放在页面的元标记中。OK。我有这种自由。我正在使用urllib.request获取该网页,并使用lxml解析(或许还可以操纵)它。您建议

我正在使用Python和lxml库解析保存的网页

storedHtmlDoc.docinfo.URL
已保存网页的docinfo显示已保存网页的磁盘位置

storedHtmlDoc.docinfo.URL

有没有办法从保存的页面中提取原始URl?

如果您没有将下载页面的URl存储在自己的某个位置,则无法使用该URl


如果可以控制下载过程,可以将下载页面的URL放在页面的元标记中。

OK。我有这种自由。我正在使用
urllib.request
获取该网页,并使用lxml解析(或许还可以操纵)它。您建议我如何向获取的网页添加元标记?我知道使用regexes for HTML不是一个好主意,但您可以找到打开
标记并在其后面插入类似
的内容。我不知道用于存储原始URL的标准
META
标记,但在您的情况下,使用非标准标记不会破坏任何内容。另一种更简单的方法是在文件末尾添加注释,如:
。但是,我不确定您是否可以使用lxml获取then URL。根据您的建议,我编写了一个函数,从HTML文档中获取
标记,并向其添加
标记。谢谢