Python 基于Beautifulsoup中的内容排除标记_Python_Web Scraping_Beautifulsoup - Fatal编程技术网

Python 基于Beautifulsoup中的内容排除标记

python web-scraping

Python 基于Beautifulsoup中的内容排除标记,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,我正在抓取类似于以下内容的html数据： <div class="target-content"> <p id="random1"> "the content of the p" </p> <p id="random2"> "the content of the p" </p> <p> <q class="semi-predictable"

我正在抓取类似于以下内容的html数据：

<div class="target-content">
    <p id="random1">
      "the content of the p"
    </p>

    <p id="random2">
      "the content of the p"
    </p>

    <p>
      <q class="semi-predictable">
         "q tag content that I don't want
      </q>
    </p>

    <p id="random3">
      "the content of the p"
    </p>

</div>

我的问题是，在我找到所有

标记的结果集之后，如何筛选出包含

的单个及其内容
注意：在从soup.find（'div'，class='target-content'）find_all（'p'）
获取结果集后，我将以以下方式将结果集中的每个
迭代添加到列表中：
content = ''
    for p in contentlist:
        content += str(p)

您只需跳过p
内有q
标记的标记：
for p in soup.select('div.target-content > p'):
    if p.q:  # if q is present - skip
        continue
    print(p)

其中p.q
是指向p.find（“q”）
的快捷方式div.target-content>p
是一个将p
标记与div
元素的直接子元素与目标内容
类相匹配的标记。
您可以使用过滤器
来完成以下操作：
filter(lambda e: e.find('q') == None, soup.find('div', class_='target-content').find_all('p'))

谢谢，这正是我想要理解的。谢谢你的解释；我不认为在Beautifulsoup中应该经常使用CSS选择器。谢谢你的帮助，我最终使用了上面@Alexe答案的变体，尽管你的答案也很有用。
filter(lambda e: e.find('q') == None, soup.find('div', class_='target-content').find_all('p'))




[web scraping]相关文章推荐



                                                        
Web scraping 是否存在任何开放的、简单可扩展的网络爬虫？
web-scrapingweb-crawler 
Web scraping 有没有办法下载所有google Webfont'；所有格式都有吗？
web-scraping 
Web scraping 高级网络垃圾
web-scraping 
Web scraping 经典asp中的Web抓取
web-scrapingasp-classic 
Web scraping scrapy：将起始url提取到scraping amazon视频信息的问题
web-scrapingscrapy 
Web scraping 刮削；“老年人”；带有刮擦、规则和链接提取器的页面
web-scrapingscrapy 
Web scraping 刮https://socialblade.com/
web-scrapingscrapy 
Web scraping 如何删除受保护的网站？
web-scraping 
Web scraping 用puppeter优化web抓取
web-scraping 
Web scraping 在<；a rel=。。。href=>；
web-scrapingxpath 
Web scraping 使用beautiful soup时无法获取特定标签
web-scraping 
Web scraping 将JSON RPC请求解码为协定
web-scrapingethereum 
                                       





随机文章推荐



                                                        
Exception handling Clojure中的自定义例外？
exception-handlingclojure 
Exception handling 创建azure节流异常
exception-handling 
Exception handling AngularJS中应用程序异常处理的推荐做法
exception-handlingangularjs 
Exception handling 在Spark中处理映射函数中的坏项
exception-handlingapache-sparkpyspark 
Exception handling 使用MSTest从asmx web服务获取真正的异常类
exception-handling


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Python 有没有一种方法可以基于值查询Django中的枚举类型？
									Python
							 									Django
							 									Django Models
							 
Python py2exe处理全局变量
									Python
							 									Python 2.7
							 
Python Kodi插件开发：sys.argv空列表
									Python
							 
使用while循环的python ProjectEuler任务4
									Python
							 
当我右键单击文件时，如何将文件名传递给python脚本？
									Python
							 
Python django_降价编辑器没有出现在django 1.10中？
									Python
							 									Django
							 									Python 3.x
							 
Python 创建新的多维数组
									Python
							 									Arrays
							 									Numpy
							 
Python Flask-动态路由不工作-数据库
									Python
							 									Html
							 									Flask
							 
Python 如何向Numpy数组添加新维度？
									Python
							 									Arrays
							 									Opencv
							 									Numpy
							 
如何用python解析同名元素的xml数据
									Python
							 									Xml
							 									Parsing
							 
Python UnboundLocalError：局部变量'；货币'；分配前参考
									Python
							 
是否有任何方法可以使用Python从该页面中删除命令？
									Python
							 									Wolfram Mathematica
							 
导入我自己的python模块
									Python
							 
Python 通过从列表中获取元素来更改xpath
									Python
							 									Xml
							 									Selenium
							 									Xpath
							 
Python 迭代存储为不同变量的一组numpy数组
									Python
							 									Numpy
							 
Python 重写_添加_方法后出现TypeError
									Python
							 
Python Django admin保存无字段的内联表单实例
									Python
							 									Django
							 
Python 如何在excel工作表中创建具有相应值的新列
									Python
							 									Excel
							 									Pandas
							 									Dataframe
							 
Python Lambda上的MySQL连接器无法导入模块'；myapp'；：没有名为'；mysql'；
									Python
							 									Mysql
							 									Lambda
							 									Aws Lambda
							 
Python '；无法将提要dict键解释为张量：'+；e、 args[0]）
									Python
							 									Django
							 									Image Processing
							 									Tensorflow
							 
Python 使用pip i安装软件包当我尝试导入软件包时，会显示一些错误ImportError no module names“；“包名”；
									Python
							 
Python YOLO的Keras自定义损失函数
									Python
							 									Tensorflow
							 									Keras
							 
如何以人性化的方式保存Python Yaml库？
									Python
							 									File
							 									Configuration
							 									Yaml
							 
Python 从边缘计算缺少的像素值
									Python
							 									Numpy
							 									Image Processing
							 
Python 附加csv，数据帧行以管道分隔
									Python
							 									Python 3.x
							 									Pandas
							 
Python 使用torch.utils.data的dataset和dataloader加载数据时出错。TypeError:类型为'的对象；类型'；没有len（）
									Python
							 									Pytorch
							 
Python 如果输入是浮点数，如何不计算字符串长度？
									Python
							 									Python 3.x
							 
Python 熊猫们读着hdf的书，扔着一个无趣的玩具
									Python
							 									Python 3.x
							 									Pandas
							 									Dataframe
							 
使用python测量音频流的响度不工作
									Python
							 									Audio
							 
Python 如何替换包含完整句子的列的每行中的多个单词？
									Python
							 									Pandas
							 									String
							 									Text
							 									Replace
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Teradata
Java 8
Multithreading
Umbraco
Language Agnostic
Plugins
Mule
Dynamic
Validation
Xamarin
Ip
Entity Framework Core
Active Directory
Angular6
Nunit
Asp.net Mvc 4
Gitlab
Google Maps
Unity3d
Webrtc
Content Management System
Cordova
Matlab
Jira
Telerik
Deep Learning
Geometry
Android Studio
Perforce
Report
Localization
Internet Explorer
Webstorm
Certificate
Meteor
Gruntjs
Scrapy
Solr
Kentico
Erlang
Adobe
Cmake
Pip
Cakephp
Artifactory
Gradle
C#
Keras
Neo4j
Twitter Bootstrap
Vaadin
Sql Server 2008
Artificial Intelligence
Matplotlib
Security
Sequelize.js
Serial Port
Version Control
Aem
Google Cloud Dataflow
Aws Lambda
Winapi
Jsp
Tags
Generics
Webpack
Visual Studio
Puppet
Hyperledger Fabric
Nsis
Extjs
Cygwin
Drools
Wicket
Delphi
Nestjs
Charts
Xmpp
Clojure
Loopbackjs
Http
Sublimetext3
Domain Driven Design
Eclipse Plugin
Mono
Jdbc
.net
Spring
Geolocation
Passwords
Parse Platform
Design Patterns
Smalltalk
Oracle11g
Makefile
Google Visualization
Socket.io
C++
Forms
Single Sign On
Swing
Binding
Flask
Computer Vision
Postman
Join
Servlets
Junit
Encryption
Lisp
Electron
Netty
Titanium
Flash
Ubuntu
Xcode
Uml
Firebase
Cron
Deployment
Ms Word
Jwt
Installation
Stored Procedures
Ldap
Ember.js
Codeigniter
Mongoose
Graphviz
User Interface
Openshift
Selenium
Javafx
Data Binding
Openerp
Usb
Nginx
Struct
Twilio
Neural Network
Windows Mobile
Plsql
Uitableview
Wix
Uiview
Docker
Gatsby
Twig
Blackberry
Autodesk Forge
Powerbi
Playframework 2.0
Ftp
Testing
Qt
Calendar
Path
Spring Boot
Architecture
Weblogic
Appium
Bots
Ffmpeg
Perl
Heroku
R
Gnuplot
Svg
Sbt
Object
Knockout.js
Ignite
React Native
Objective C
Apache Zookeeper
Sonarqube
Google App Engine
Express
Powershell
Sip
Ios6
Latex
Autocomplete
Apache Spark
Vue.js
Glassfish
Phpstorm
Linux Kernel
Identityserver4
Jestjs
Ocaml
For Loop
Macos
Oauth
Unicode
Nativescript
Vim
Jakarta Ee
Android Fragments
Logging
Google Analytics


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网