Python 提取HTML文档来自的站点

Python 提取HTML文档来自的站点,python,html,beautifulsoup,Python,Html,Beautifulsoup,我有一个文件夹,里面装满了HTML文档,这些文档是网页的保存副本,但我需要知道它们来自哪个网站,我可以使用什么功能从文档中提取网站名称?我在BeautifulSoup模块中没有找到任何东西。文档中是否有我应该查找的特定内容?我不需要知道完整的url,我只需要知道网站的名称。只有在源代码中的某个地方提到url时,才能这样做 如果提到url,首先找出它在哪里。如果它在那里,它可能会在基本标记中。有时网站有很好的标题,上面有一个指向其登录页的链接,如果你只需要域名,就可以使用这个链接。或者它可能在某个

我有一个文件夹,里面装满了HTML文档,这些文档是网页的保存副本,但我需要知道它们来自哪个网站,我可以使用什么功能从文档中提取网站名称?我在BeautifulSoup模块中没有找到任何东西。文档中是否有我应该查找的特定内容?我不需要知道完整的url,我只需要知道网站的名称。

只有在源代码中的某个地方提到url时,才能这样做

如果提到url,首先找出它在哪里。如果它在那里,它可能会在基本标记中。有时网站有很好的标题,上面有一个指向其登录页的链接,如果你只需要域名,就可以使用这个链接。或者它可能在某个评论中,具体取决于您保存它的方式


如果在所有页面中提及url的方式都相似,那么您的工作就很简单:使用re或BeautifulSoup或lxml和xpath获取您需要的信息。还有其他可用的工具,但其中任何一个都可以。

除非有
base
tag,否则这是不可能的。一般来说,你不能。HTML文件通常不包含用于访问它的URL的信息。保存时,页面通常会在代码中插入注释,说明它们来自何处。。。我不需要知道网址,只需要知道网站的名称。答案仍然是苹果。找到提到名字的地方,如果它在页面之间是一致的,那么就使用我提到的工具之一抓取名字。很可能是网站的鬃毛和域名非常相似谢谢,我会试试的。