Python 在不同的html标记中使用内容值抓取网页
我是新的刮和编码以及。到目前为止,我能够使用以下代码使用beautiful soup刮取数据:Python 在不同的html标记中使用内容值抓取网页,python,html,web-scraping,beautifulsoup,Python,Html,Web Scraping,Beautifulsoup,我是新的刮和编码以及。到目前为止,我能够使用以下代码使用beautiful soup刮取数据: sub_soup = BeautifulSoup(sub_page, 'html.parser') content = sub_soup.find('div',class_='detail-view-content') print(content) 如果标记和类的格式为: <div class="masthead-card masthead-hover"> 但当
sub_soup = BeautifulSoup(sub_page, 'html.parser')
content = sub_soup.find('div',class_='detail-view-content')
print(content)
如果标记和类的格式为:
<div class="masthead-card masthead-hover">
但当格式与内容匹配时失败:
<span _ngcontent-ixr-c5="" class="btn-trailer-text">
or
<div _ngcontent-wak-c4="" class="col-md-6">
或
下面是我试图抓取的内容网页截图示例:
所有我尝试过的结果都是空白或“无”。我遗漏了什么。您是如何访问该页面的?这个内容很可能是动态注入JS的。您可能必须手动点击API或使用Web驱动程序。@ggorlen我正在使用他们的site.xml并从中获取url。此后使用BS4将其废弃。@ggorlen您是对的,html标记在每次刷新时都会更改。这是另一个问题。这能解决您的问题吗:html还是.xml?我想你指的是html。尝试
soup。选择一个(“.detail view title”).split(“|”)[-1].strip()
这也有助于查看这两种类型的html示例(包括要提取的文本)