Python 提取HTML文档来自的站点_Python_Html_Beautifulsoup

Python 提取HTML文档来自的站点

python html

Python 提取HTML文档来自的站点,python,html,beautifulsoup,Python,Html,Beautifulsoup,我有一个文件夹，里面装满了HTML文档，这些文档是网页的保存副本，但我需要知道它们来自哪个网站，我可以使用什么功能从文档中提取网站名称？我在BeautifulSoup模块中没有找到任何东西。文档中是否有我应该查找的特定内容？我不需要知道完整的url，我只需要知道网站的名称。只有在源代码中的某个地方提到url时，才能这样做如果提到url，首先找出它在哪里。如果它在那里，它可能会在基本标记中。有时网站有很好的标题，上面有一个指向其登录页的链接，如果你只需要域名，就可以使用这个链接。或者它可能在某个

我有一个文件夹，里面装满了HTML文档，这些文档是网页的保存副本，但我需要知道它们来自哪个网站，我可以使用什么功能从文档中提取网站名称？我在BeautifulSoup模块中没有找到任何东西。文档中是否有我应该查找的特定内容？我不需要知道完整的url，我只需要知道网站的名称。

只有在源代码中的某个地方提到url时，才能这样做

如果提到url，首先找出它在哪里。如果它在那里，它可能会在基本标记中。有时网站有很好的标题，上面有一个指向其登录页的链接，如果你只需要域名，就可以使用这个链接。或者它可能在某个评论中，具体取决于您保存它的方式

如果在所有页面中提及url的方式都相似，那么您的工作就很简单：使用re或BeautifulSoup或lxml和xpath获取您需要的信息。还有其他可用的工具，但其中任何一个都可以。

除非有

base

tag，否则这是不可能的。一般来说，你不能。HTML文件通常不包含用于访问它的URL的信息。保存时，页面通常会在代码中插入注释，说明它们来自何处。。。我不需要知道网址，只需要知道网站的名称。答案仍然是苹果。找到提到名字的地方，如果它在页面之间是一致的，那么就使用我提到的工具之一抓取名字。很可能是网站的鬃毛和域名非常相似谢谢，我会试试的。