Python 解析类的特定部分
我想从一个html文档类中解析,但前提是类中包含特定的单词。例如在Python 解析类的特定部分,python,parsing,web-scraping,beautifulsoup,html-parsing,Python,Parsing,Web Scraping,Beautifulsoup,Html Parsing,我想从一个html文档类中解析,但前提是类中包含特定的单词。例如在 <div class="article-xyz"> or <div class="abcd-xyzefg"> 如果我搜索“xyz”,应该提取一些结果,但它没有 这是我的测试html: <!doctype html> <html class="no-js" lang=""> <head> <title>Test - A Sample
<div class="article-xyz"> or <div class="abcd-xyzefg">
如果我搜索“xyz”,应该提取一些结果,但它没有
这是我的测试html:
<!doctype html>
<html class="no-js" lang="">
<head>
<title>Test - A Sample Website</title>
<meta charset="utf-8">
<link rel="stylesheet" href="css/normalize.css">
<link rel="stylesheet" href="css/main.css">
</head>
<body>
<h1 id='site_title'>Test Website</h1>
<hr></hr>
<div class="article">
<h2><a href="article_1.html">Article 1 Headline</a></h2>
<p>This is a summary of article 1</p>
</div>
<hr></hr>
<div class="article">
<h2><a href="article_2.html">Article 2 Headline</a></h2>
<p>This is a summary of article 2</p>
</div>
<hr></hr>
<div class="article-xyz">
<h2><a href="article_2.html">Article 2 test headline dings</a></h2>
<p> article 2 test thing</p>
</div>
<div class='footer'>
<p>Footer Information</p>
</div>
<div class="other-xyz-stuff">
<h2><a href="article_2.html">other-xyz-stuff test headline </a></h2>
<p>other-xyz-stuff test </p>
</div>
<script src="js/vendor/modernizr-3.5.0.min.js"></script>
<script src="js/plugins.js"></script>
<script src="js/main.js"></script>
</body>
</html>
测试-示例网站
测试网站
这是对第1条的总结
这是对第2条的总结
第2条试验品
页脚信息
其他xyz测试
到目前为止,我在BS4中使用Python3.7
有人能帮我吗
谢谢你和问候像使用lambda一样
article_all = soup.find_all('div', class_=lambda x: x and 'xyz' in x)
这回答了你的问题吗?
article_all = soup.find_all('div', class_=lambda x: x and 'xyz' in x)