Python 使用BeautifulSoup从本地保存的html文件中提取原始html

Python 使用BeautifulSoup从本地保存的html文件中提取原始html,python,html,parsing,beautifulsoup,extract,Python,Html,Parsing,Beautifulsoup,Extract,相对而言,这是一个全新的群体。试图从本地保存的html文件中获取原始html。我环顾四周,发现我应该用漂亮的汤来做这个。但是当我这样做的时候: from bs4 import BeautifulSoup url = r"C:\example.html" soup = BeautifulSoup(url, "html.parser") text = soup.get_text() print (text) 打印出一个空字符串。我想我错过了一些步骤。任何正确方向的轻推都将不胜感激。Beautifu

相对而言,这是一个全新的群体。试图从本地保存的html文件中获取原始html。我环顾四周,发现我应该用漂亮的汤来做这个。但是当我这样做的时候:

from bs4 import BeautifulSoup
url = r"C:\example.html"
soup = BeautifulSoup(url, "html.parser")
text = soup.get_text()
print (text)

打印出一个空字符串。我想我错过了一些步骤。任何正确方向的轻推都将不胜感激。

BeautifulSoup的第一个参数是实际的HTML字符串,而不是URL。打开该文件,读取其内容,并将其传递。

关于上一个答案,有两种方法可以打开HTML文件:

一,

二,

with open("example.html") as fp:
    soup = BeautifulSoup(fp)
soup = BeautifulSoup(open("example.html"))