如何在Python中使用lxml从html中提取除css和javascript之外的所有文本?
如何从html中提取除css和javascript之外的所有文本 我正在尝试以下代码:如何在Python中使用lxml从html中提取除css和javascript之外的所有文本?,python,xpath,python-requests,lxml,Python,Xpath,Python Requests,Lxml,如何从html中提取除css和javascript之外的所有文本 我正在尝试以下代码: r = requests.get(website) tree = html.fromstring(r.text) html_text = tree.xpath('//text()') 但它也从网站检索所有css和javascript内容您可以使用该方法删除您不感兴趣的元素 tree = html.fromstring(r.text) unwanted = tree.xpath('//script|//st
r = requests.get(website)
tree = html.fromstring(r.text)
html_text = tree.xpath('//text()')
但它也从网站检索所有css和javascript内容您可以使用该方法删除您不感兴趣的元素
tree = html.fromstring(r.text)
unwanted = tree.xpath('//script|//style')
for u in unwanted:
u.drop_tree()
html_text = tree.xpath('//text()')
那么你想排除和标记中的所有内容?@mzjn是的,没错。我想排除HTMLH中的所有内容,只提取HTMLH中的所有可读文本。在您的案例中,您如何定义可读文本,并将其翻译成程序?所有不在或?所有不在和标记中的文本