从脱机HTML获取Web Url

从脱机HTML获取Web Url,html,url,Html,Url,我是这个论坛的新手。 在一些C++项目中,我试图分析我以前加载的脱机HTML文件。我需要从这些文件中获取信息,比如语言、标题……eetc。为此,我找到了出路。 但是,当我试图知道从哪里下载这些文件的原始url时,我遇到了一些棘手的问题。事实上,我的应用程序必须完全离线,但我仍然需要原始url。 当我使用移动Chrome应用程序下载这些文件时,在源html代码的开头,DOCTYPE之前,会显示一些宝贵的信息。原始url作为“内容位置”给出: 来自 Snapshpot内容位置:http://adaa

我是这个论坛的新手。 在一些C++项目中,我试图分析我以前加载的脱机HTML文件。我需要从这些文件中获取信息,比如语言、标题……eetc。为此,我找到了出路。 但是,当我试图知道从哪里下载这些文件的原始url时,我遇到了一些棘手的问题。事实上,我的应用程序必须完全离线,但我仍然需要原始url。 当我使用移动Chrome应用程序下载这些文件时,在源html代码的开头,DOCTYPE之前,会显示一些宝贵的信息。原始url作为“内容位置”给出:

来自
Snapshpot内容位置:http://adaa-ase.com/savon-champoing-.php#1123
主题:博伊斯中心酒店
等
但我真的怀疑这些信息是否总是显示在代码的开头。而且,Chrome应用程序就是这样玩的,所以。。。它不是便携式的

我的问题如下: 我如何才能找到从web下载的HTML文件的原始url,无论我以何种方式获得该文件(以及使用何种浏览器)


PS:这是“规范url”吗?

我认为没有可靠的方法从html文件中获取这些信息。它不会一直可用。如果不可能,我会找到另一种方法
From <Saved by blink>
Snapshpot-Content-Location: http://adaa-ase.com/savon-champoing-.php#1123
Subject: faire du savon avec de la cendre de bois
etc...