如何使用Python从html标记中提取数据？_Python_Html_Beautifulsoup - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/91.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用Python从html标记中提取数据？_Python_Html_Beautifulsoup - Fatal编程技术网

如何使用Python从html标记中提取数据？

python html

如何使用Python从html标记中提取数据？,python,html,beautifulsoup,Python,Html,Beautifulsoup,我想从在线词典中提取一个单词的翻译。例如，“car”的html代码： <ol class="sense_list level_1"> <li class="sense_list_item level_1" value="1"><span class="def">any vehicle on wheels</span></li> 任何车轮上的车辆如何在Python中提取“车轮上的任何车辆”或任何其他模块？有多种方法可以

我想从在线词典中提取一个单词的翻译。例如，“car”的html代码：

<ol class="sense_list level_1">
     <li class="sense_list_item level_1" value="1"><span class="def">any vehicle on wheels</span></li>


任何车轮上的车辆

如何在Python中提取“车轮上的任何车辆”或任何其他模块？

有多种方法可以达到所需的元素

最简单的方法可能是通过

类找到它：
soup.find('span', class_='def').text

或者，使用CSS选择器
：
soup.select('span.def')[0].text

或者，另外检查家长：
soup.select('ol.level_1 > li.level_1 > span.def')[0].text

或：
假设这是给出的唯一HTML代码，您可以使用
我通过beautifulsoup解决它：
soup = bs4.BeautifulSoup(html)
q1=soup.find('li', class_="sense_list_item level_1",value='1').text

谢谢你的回答。但该html代码还有其他类似于上行的行，只有一个区别：value=“1”。对于每一行，值都会发生变化。“如何使用value=“1”提取行似乎与我已修改答案以包含开始标记和属性的答案重复。@SaraSantana更新了答案-最后一个选项检查值属性值。
import nltk 

#load html chunk into variable htmlstring#
extract = nltk.clean_html(htmlstring)
print(extract)

soup = bs4.BeautifulSoup(html)
q1=soup.find('li', class_="sense_list_item level_1",value='1').text




[html]相关文章推荐



                                                        
                                       





随机文章推荐



                                                        
Julia | DataFrame |替换缺少的值
dataframejulia 
将DataFrame的列转换为Python系列
dataframe 
Dataframe 如何使用具有列名的逻辑语句减去数据帧中的列？
dataframe 
Dataframe 断言Pytest的两个数据帧不相等
dataframe 
Dataframe 特征工程继续上一个最后值发生
dataframeapache-sparkpyspark 
Dataframe 在Pyspark中将数据帧写入文本文件
dataframetextpyspark 
Dataframe 数据帧索引值
dataframeindexing 
Dataframe 在数据框对象中操纵和转换*txt
dataframertext 
Dataframe 使用附加列从宽到长转换和重塑数据帧
dataframeindexing 
Dataframe 使用.NET for Spark对数据帧进行递归计算
dataframeapache-sparkrecursion 
Dataframe 在公共列上组合两个表的最快方法（基于最近的时间戳和相同的ID）
dataframemerge 
Dataframe 如何将列名和列数据类型传递给toDF（）函数
dataframeapache-sparkpyspark


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
在Python中，对于错误/非法的参数组合，我应该引发哪个异常？
									Python
							 									Exception
							 
从python-mode.el切换到python.el
									Python
							 									Emacs
							 
标准python解释器有vi命令模式吗？
									Python
							 
什么'；s Python导入和提供可选功能的良好实践？
									Python
							 
在Python中模拟指针
									Python
							 									Pointers
							 
如何在python中获得单调的持续时间？
									Python
							 									Linux
							 
Python 字典和课堂？
									Python
							 									Dictionary
							 									Class
							 
Python 赋值问题，一个NumPy函数？
									Python
							 									Numpy
							 									Optimization
							 
Python 单元测试应该如何记录？
									Python
							 									Unit Testing
							 									Documentation
							 
Python：获取存储在Windows中的文件名大小写？
									Python
							 									Windows
							 
Python 基于OCR的T恤照片代码提取
									Python
							 
XML声明python中的编码
									Python
							 									Xml
							 									Encoding
							 
Python 注释是否会减慢解释语言的速度？
									Python
							 
Python 带twinx（）的次轴：如何添加到图例？
									Python
							 									Matplotlib
							 
Python正则表达式是否找到所有重叠的匹配项？
									Python
							 									Regex
							 
Python Tkinter：如何使用可根据窗口大小调整大小的滚动条制作固定画布大小
									Python
							 									Tkinter
							 
Python 通过api创建用户密钥斗篷并分配客户端角色领域管理
									Python
							 									Rest
							 									Curl
							 									Keycloak
							 
如何在Python中合并具有不同表列的多个Excel工作表？
									Python
							 									Excel
							 									Pandas
							 									Merge
							 
将Python字典转换为非嵌套JSON对象
									Python
							 									Json
							 
如何在python中将输出附加到特定位置？
									Python
							 									Pandas
							 									Dataframe
							 
Python 如何使用数据帧计算每个单元格的百分比并用结果（%）替换tha值？
									Python
							 									Pandas
							 									Dataframe
							 
Python MNIST数据集上的无条件生成对手网络
									Python
							 									Tensorflow
							 									Keras
							 									Computer Vision
							 
Python numpy中的图像混合返回纯白色图像
									Python
							 									Python 3.x
							 									Numpy
							 									Image Processing
							 
Python中的字节操作
									Python
							 									Python 3.x
							 
Python 不是二进制交叉熵中的二进制基本真理标签？
									Python
							 									Keras
							 									Deep Learning
							 
Python Pygame draw.rect不使用rect参数
									Python
							 
Python Tensorflow CIELAB颜色空间边界
									Python
							 									Tensorflow
							 
Python 转换以十六进制格式保存在np.array中的图像以将其导入opencv
									Python
							 									Numpy
							 									Opencv
							 
Python 对数据帧中的对象取消字符串
									Python
							 									Pandas
							 
Python 在sns histplot上设置顺序
									Python
							 									Pandas
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Sqlalchemy
Testing
Azure Devops
Discord.py
Stored Procedures
Ravendb
Canvas
Amazon Ec2
Appium
Apache Flex
Amazon Web Services
Triggers
Data Structures
Open Source
Windows Services
Fluent Nhibernate
Linux
Swing
F#
Filter
Recursion
Matrix
Search
Less
Multithreading
Macros
Graphics
Pandas
Logstash
Abap
Netty
Vagrant
Graphviz
R
React Native
Express
Button
Ssrs 2008
Subsonic
Cuda
Emacs
Ruby
Cmake
Fortran
Jdbc
Json
Sql Server 2008
Mariadb
Ms Word
Xamarin.forms
Audio
Primefaces
Mapping
Memory Leaks
Sockets
Unity3d
Synchronization
Visual Studio 2013
Titanium
Microservices
Hash
Silverstripe
Html5 Canvas
Lisp
Jetty
Url Rewriting
Apache Pig
Colors
Python Sphinx
Openerp
Amazon S3
Nest
Nginx
Log4net
Android Layout
Google Cloud Firestore
Plugins
X86
Model
Typo3
Spotify
Certificate
Computer Science
Itext
Aframe
Spring Integration
Sharepoint 2013
Permissions
Fullcalendar
Ruby On Rails
C# 3.0
Vaadin
Moodle
Scala
Virtualbox
Assembly
Datatables
Chef Infra
Camera
Dojo
Google Visualization
Firefox
Tags
Jar
Templates
Erlang
Amazon Cloudformation
Module
Requirejs
Kentico
Apache Kafka
Drop Down Menu
Compilation
Sphinx
Objective C
Serialization
Dynamic
Actionscript 3
Tcl
Autodesk Forge
Weblogic
Selenium
Jakarta Ee
Binding
Curl
Ionic2
Activerecord
Amp Html
Identityserver4
Salesforce
Tinymce
Logic
Telegram
Uitableview
Download
Sorting
Mercurial
Monitoring
Operating System
Windbg
Cocoa
Debugging
Google Apps Script
Google Calendar Api
C#
Autocomplete
Arangodb
Verilog
Jquery Mobile
Openstack
Time Complexity
Process
Openid
Docker
Octave
Oracle10g
Google Chrome
Sugarcrm
Parameters
Import
Vba
Arduino
Ibm Midrange
File Upload
Wxpython
Ios7
Wolfram Mathematica
Zsh
Web Applications
Fonts
Unit Testing
Iphone
Codenameone
Sms
Report
Orientdb
Navigation
Ubuntu
Class
Mongodb
Orchardcms
Bootstrap 4
Markdown
Xaml
Sitecore
Css
Stripe Payments
Sublimetext3
Vue.js
Cucumber
Resharper
Groovy
Coding Style
Imagemagick
Ajax
Core Data
Knockout.js
Bluetooth
Database Design
Amazon Redshift
Mule


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网