如何使用Python解析包含命名ISO-8859-1实体的HTML？_Python_Html Parsing_Xhtml - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/visual-studio-2008/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用Python解析包含命名ISO-8859-1实体的HTML？_Python_Html Parsing_Xhtml - Fatal编程技术网

如何使用Python解析包含命名ISO-8859-1实体的HTML？

python

如何使用Python解析包含命名ISO-8859-1实体的HTML？,python,html-parsing,xhtml,Python,Html Parsing,Xhtml,我总结一下：minidom似乎不喜欢8859个命名实体；什么是合适的解决方案以下代码说明了我的情况： sample = """ <html> <body> <h1>Un ejemplo</h1> <p>Me llamo Juan Fulano y Hernández.</p> </body> </html> """ sample2

我总结一下：minidom似乎不喜欢8859个命名实体；什么是合适的解决方案

以下代码说明了我的情况：

sample = """
  <html>
    <body>
      <h1>Un ejemplo</h1>
      <p>Me llamo Juan Fulano y Hern&aacute;ndez.</p>
    </body>
  </html>
"""
sample2 = sample.replace("&aacute;", "&#225;")

import xml.dom.minidom

dom2 = xml.dom.minidom.parseString(sample2)
dom = xml.dom.minidom.parseString(sample)

我该如何回应？是吗

是否用相应的文字常量替换命名实体？
是否使用minidom以外的解析器？哪个？
不知何故（通过编码分配？）让minidom相信这些命名实体很酷？

说服（X）HTML的作者避开命名实体是不可行的。

xml.dom.minidom

是xml解析器，而不是HTML解析器。因此，它不知道任何HTML实体（只知道XML和HTML共同的实体：

”、、、
、
、
和
）
试试。对于这个问题及其类似的问题，以前有很多答案，例如：谢谢你，Ekhumaro；我太迟钝了，以至于我没有意识到客户真的处于HTML状态，而他将其标记为XML只是我应该忽略的噪音。谢谢，Tim Pietzcker：你的回答是（非常！）快速、准确且接近我所需要的。事实上，我正在使用的数据被宣传为XML；从长远来看，我需要研究如何协调minidom对相关DTD的想法与数据作者的想法。不过，与此同时，我想让你知道，你的话很有帮助：虽然我很熟悉对于BeautifulSoup，我没有想到你的分析，我甚至没有想过在这种情况下尝试。你给我留下了比我开始时更好的印象。
... xml.parsers.expat.ExpatError: undefined entity ...




[embedded]相关文章推荐



                                                        
Embedded 使用SPI接口初始化microSD卡
embedded 
Embedded 如何为嵌入式系统设计串行命令协议？
embeddedserial-port 
Embedded 带有Web服务器的PIC板
embedded 
Embedded zlib内存使用率/性能。有500kb的数据
zLib值得吗？还有其他更适合的压缩机吗？
embeddedmemory-managementcompression 
Embedded 正在检查Atmega32是否已死亡
embedded 
Embedded 我可以为STM32F103ZE芯片上的GPIO引脚配置中断吗？
embeddedarm 
Embedded 与stm32接口的网络摄像头
embeddedusbstm32 
Embedded 通过ATmega16中的I2C访问RTC（DS1307）
embedded 
Embedded Udacity：功能硬件验证。什么是实现？
embedded 
Embedded libusb可以移植到微控制器上吗？
embedded 
Embedded 在设备和PC之间交换日志和命令的标准协议？
embedded 
Embedded 在微控制器上构建实时操作系统
embedded 
Embedded 在不同的STM32F3/F4 MCU上使用相同的代码
embeddedstm32 
                                       





随机文章推荐


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Python Django芹菜：任务未更新数据库
									Python
							 									Django
							 
在Python中为线程创建动态变量名
									Python
							 									Multithreading
							 
Python 从前序遍历列表构造完整的二叉树
									Python
							 
Python 导入datashader时出错
									Python
							 
Python 多界Scipy优化
									Python
							 
在OS X上安装和导入Python模块
									Python
							 									Macos
							 									Python 2.7
							 									Python 3.x
							 									Module
							 
Python 解决类型错误：'；str'；对象不可调用
									Python
							 
Python 二维列表中的元素重复，同时更改一个值？
									Python
							 									Arrays
							 									Python 3.x
							 									List
							 
Python Django-附加到它之后的过滤器查询集
									Python
							 									Django
							 
Python 将嵌套字典转换为列表的列表
									Python
							 									List
							 									Dictionary
							 
Python 遍历两个列表，每个列表都包含数组，并返回相似数组的计数
									Python
							 									Arrays
							 
Python 如果数据帧列中的值存在于其他数据帧中，则更新这些值
									Python
							 									Pandas
							 									Dataframe
							 
Python 使用selenium移除容器中的元素
									Python
							 									Selenium
							 									Selenium Webdriver
							 									Web Scraping
							 
Python 熊猫在水平上的多索引重新索引
									Python
							 									Pandas
							 
Python 插座连接因pyignite而断开
									Python
							 									Ignite
							 
Python 如何通过tree.plot\u tree设置树视图中列的名称？
									Python
							 									Pandas
							 									Machine Learning
							 									Scikit Learn
							 
Python 在类中处理预设选项的最佳方法
									Python
							 									Class
							 
Python 如何直接获取对象'；描述；打印输出（对象）
									Python
							 
Python 如何将同一元素条目分组并用平均值替换它？
									Python
							 									Pandas
							 									Dataframe
							 
Python 返回类似字符串的wave的代码有问题，在每个循环之后，下一个字母将是大写的
									Python
							 
Python 随机数-每次运行时的相同数-每行的不同数
									Python
							 									Pandas
							 
Python 如何用空格和标点分隔字符串，但保留标点？
									Python
							 									String
							 
Python 有效地重塑阵列
									Python
							 									Numpy
							 
Python 导入错误：无法导入名称'；呈现"对"响应'；从'；django.捷径'；
									Python
							 									Django
							 
Python 如何将RGBA图像转换为RGB，并将其提供给Keras中经过培训的CNN？
									Python
							 									Tensorflow
							 									Keras
							 									Neural Network
							 
如何在python代码中插入get_元素_count
									Python
							 									Robotframework
							 
Python 如何在字典列表中分组和添加字典键
									Python
							 									Dictionary
							 
Python 如何将JSON API数据绑定到一个字典中？
									Python
							 									Json
							 									Django
							 									Dictionary
							 									Django Rest Framework
							 
Python 如何从CountVectorizer输出中获取特定单词？
									Python
							 									Scikit Learn
							 
Python 为什么OR语句的切换顺序会修复TypeError:'<='；在'之间不受支持；str'；和'；int'；？
									Python
							 									Validation
							 									Types
							 									Logic
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Intellij Idea
Plone
Cordova
Coldfusion
Sublimetext3
Responsive Design
Usb
Report
Ubuntu
Swift3
Tinymce
Visual Studio 2015
Jestjs
Nginx
Windows Phone 8.1
Google Sheets
Database Design
Excel
Nlp
Inheritance
Collections
Html5 Canvas
Google Cloud Dataflow
Playframework
Dart
Join
Rx Java
Neural Network
Websocket
Internet Explorer
Javafx
Xcode4
Postgresql
React Native
Sitecore
Amazon S3
Design Patterns
Deployment
Geometry
Memory Management
C++11
Function
Fiware
Tree
Installation
Xslt
Google Compute Engine
Cocoa Touch
Html
Loopbackjs
Python 3.x
If Statement
Netbeans
Android Emulator
Hyperlink
Vb.net
Python
Http
Import
Dll
Mule
Wpf
Jsf 2
Io
Google Colaboratory
Protocol Buffers
Joomla
Tfs
Llvm
Oracle Apex
Markdown
Text
Ssrs 2008
Vhdl
Eclipse Plugin
Wso2
Wix
Computer Science
Hyperledger Fabric
Autocomplete
Ios6
Sql Server 2008
Google Chrome Devtools
Asp.net Mvc
Ipad
Dependencies
Random
Error Handling
Dynamics Crm 2011
Zend Framework2
Air
Api
Scala
Listview
Jira
Terraform
Arm
Delphi
Qml
Pascal
Lua
Sockets
Twitter Bootstrap 3
Asp.net
Silverlight
Composer Php
C++ Cli
Functional Programming
Youtube Api
Testing
Facebook
Autodesk Forge
Timer
Java 8
Pip
Login
Couchbase
Algorithm
Network Programming
Image Processing
Drupal
Boost
Vim
User Interface
Fortran
Mono
Jms
Debugging
Routes
Actions On Google
Cassandra
Rdf
Xml
Project Management
Appium
Junit
Dns
Ruby On Rails 3.2
Octave
Snmp
Visual Studio 2010
Map
Language Agnostic
Mongoose
Sapui5
Jaxb
Camera
Cron
Google Chrome
Video Streaming
Soap
Windows 7
Twitter
Variables
Jquery Plugins
Jboss
Oop
Influxdb
Android Studio
Bots
Jekyll
Clang
Model
Concurrency
Apache Storm
Polymer
Xquery
Binary
Rspec
Artificial Intelligence
Pyspark
Select
Javafx 2
Generics
Rss
Go
Doctrine Orm
Drupal 7
Asp.net Mvc 2
Selenium Webdriver
Passwords
Azure
Animation
Apache Kafka
Visual Studio 2017
Iframe
Twilio
Ruby On Rails 3
Logic
Sqlite
Bluetooth
Blazor
Cluster Computing
Jqgrid
Jupyter Notebook
Templates
Exception Handling
Indexing
Resharper
Sugarcrm
Data Binding


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网