Python 美丽的乌苏找不到一切_Python_Python 2.7_Beautifulsoup_Html Parsing

Python 美丽的乌苏找不到一切

python python-2.7

Python 美丽的乌苏找不到一切,python,python-2.7,beautifulsoup,html-parsing,Python,Python 2.7,Beautifulsoup,Html Parsing,我有下面的源代码试图解析一个网页，但是，它似乎没有找到类“row dataraekker”出现在其中的所有实例 cvr = 45963128 url = 'https://datacvr.virk.dk/data/visenhed?enhedstype=virksomhed&id=%s&soeg=%s' % (str(cvr), str(cvr)) rObject = requests.get(url) html = rObject.content soup = Beautif

我有下面的源代码试图解析一个网页，但是，它似乎没有找到类“row dataraekker”出现在其中的所有实例

cvr = 45963128
url = 'https://datacvr.virk.dk/data/visenhed?enhedstype=virksomhed&id=%s&soeg=%s' % (str(cvr), str(cvr))

rObject = requests.get(url)
html = rObject.content
soup = BeautifulSoup(html, 'html.parser')
registerHistoryTab = soup.find('div', class_="accordion ", id="accordion-Historisk")
dataRows = registerHistoryTab.find_all('div', class_='row dataraekker')
print len(dataRows)

registerHistoryTab使用以下HTML保存2项，其中多个div显示为“不知从何而来”，因为页面的源代码中并非如此

<div class="accordion " data-pdf-class="accordion hide accordion-Historisk" id="accordion-Historisk">
<div class="accordion-group accordion-wrapper">
<div class="accordion-heading">
<div>
<a class="accordion-toggle collapsed" data-parent="#accordion" data-toggle="collapse" href="#collapse_-Historisk">
<h1>Registreringshistorik<div class="text-left help_element help_acc Help-Historisk" data-pdf-class="hide"></div></h1>
</a>
</div>
<!--pdf-linje-->
</div>
<div class="accordion-body collapse" id="collapse_-Historisk">
<div class="accordion-inner" data-pdf-class="sektion">
<div class="aktive-registreringstidende">
<div class="row dataraekker">
<div class="col-sm-12" data-pdf-class="column12">
<b>04.06.2015  Ændring i personkreds</b><br>
<b>CVR-nummer:</b><p>45963128.</p><b>NAVN:</b><p>UNILEVER DANMARK A/S.</p>Adresse: Ørestads Boulevard 73, 2300 København S.<br/>Kommune: København.<br/><b>Bestyrelse:<br/></b><h2>Fratrådte:</h2><p>Jens Christian Voldmester, den 01.06.2015.</p><b>Direktion:<br/></b><h2>Fratrådte:</h2><p>Jens Christian Voldmester, (adm. dir), den 01.06.2015.</p><h2>Tiltrådte:</h2><p>Henrico Drent, (adm. dir), Burgemeester Vogelslaan 63, 5062 KN, Oisterwijk, Holland, den 01.06.2015.</p><hr> </hr></br></div>
</div><div class="row dataraekker">
<div class="col-sm-12" data-pdf-class="column12">
<b>06.03.2015  Øvrige ændringer, Ændring i personkreds</b><br>
<p><b>CVR-nummer: </b>45963128</p><p><b>Navn og adresse: </b></p></br>UNILEVER  DANMARK A/S</div></div></div></div></div></div></div>


4.06.2015Ændring i personkreds

CVR nummer:45963128.
NAVN:UNILEVER DANMARK A/S.
ADRESE:restads大道73号，克本哈夫南2300号
Kommune:København.
Bestyrelse:
Fratrådte:Jens Christian Voldmester，den 01.06.2015.
Direktion:
Fratr:，2015年6月1日，荷兰奥斯特韦克，伯格梅斯特·沃格斯兰635062千牛。


2015年3月6日，维里奇·安德林格，安德林格本人

CVR nummer:45963128
导航地址：

联合利华丹麦A/S

该问题出现在find方法中，因为registerHistoryTab与查看网页时不同

谢谢你的帮助

该问题出现在find方法中，因为registerHistoryTab与查看网页时不同

千万不要期望

请求返回的HTML与您在浏览器中看到的相同。处理HTML解析时，请使用响应中的内容以及在浏览器中看到的内容
注意，在这种情况下，只需将解析器从html.parser
切换到lxml
即可解决问题：
soup = BeautifulSoup(html, 'lxml')

现在我看到打印的是64
，而不是2

请注意，这需要安装lxml
：pip安装--升级lxml

另见：


“以及您在浏览器中看到的内容”。。。应该是“而不是你在浏览器中看到的”？