Python 美丽的乌苏找不到一切

Python 美丽的乌苏找不到一切,python,python-2.7,beautifulsoup,html-parsing,Python,Python 2.7,Beautifulsoup,Html Parsing,我有下面的源代码试图解析一个网页,但是,它似乎没有找到类“row dataraekker”出现在其中的所有实例 cvr = 45963128 url = 'https://datacvr.virk.dk/data/visenhed?enhedstype=virksomhed&id=%s&soeg=%s' % (str(cvr), str(cvr)) rObject = requests.get(url) html = rObject.content soup = Beautif

我有下面的源代码试图解析一个网页,但是,它似乎没有找到类“row dataraekker”出现在其中的所有实例

cvr = 45963128
url = 'https://datacvr.virk.dk/data/visenhed?enhedstype=virksomhed&id=%s&soeg=%s' % (str(cvr), str(cvr))

rObject = requests.get(url)
html = rObject.content
soup = BeautifulSoup(html, 'html.parser')
registerHistoryTab = soup.find('div', class_="accordion ", id="accordion-Historisk")
dataRows = registerHistoryTab.find_all('div', class_='row dataraekker')
print len(dataRows)
registerHistoryTab使用以下HTML保存2项,其中多个div显示为“不知从何而来”,因为页面的源代码中并非如此

<div class="accordion " data-pdf-class="accordion hide accordion-Historisk" id="accordion-Historisk">
<div class="accordion-group accordion-wrapper">
<div class="accordion-heading">
<div>
<a class="accordion-toggle collapsed" data-parent="#accordion" data-toggle="collapse" href="#collapse_-Historisk">
<h1>Registreringshistorik<div class="text-left help_element help_acc Help-Historisk" data-pdf-class="hide"></div></h1>
</a>
</div>
<!--pdf-linje-->
</div>
<div class="accordion-body collapse" id="collapse_-Historisk">
<div class="accordion-inner" data-pdf-class="sektion">
<div class="aktive-registreringstidende">
<div class="row dataraekker">
<div class="col-sm-12" data-pdf-class="column12">
<b>04.06.2015  Ændring i personkreds</b><br>
<b>CVR-nummer:</b><p>45963128.</p><b>NAVN:</b><p>UNILEVER DANMARK A/S.</p>Adresse: Ørestads Boulevard 73, 2300 København S.<br/>Kommune: København.<br/><b>Bestyrelse:<br/></b><h2>Fratrådte:</h2><p>Jens Christian Voldmester, den 01.06.2015.</p><b>Direktion:<br/></b><h2>Fratrådte:</h2><p>Jens Christian Voldmester, (adm. dir), den 01.06.2015.</p><h2>Tiltrådte:</h2><p>Henrico Drent, (adm. dir), Burgemeester Vogelslaan 63, 5062 KN, Oisterwijk, Holland, den 01.06.2015.</p><hr> </hr></br></div>
</div><div class="row dataraekker">
<div class="col-sm-12" data-pdf-class="column12">
<b>06.03.2015  Øvrige ændringer, Ændring i personkreds</b><br>
<p><b>CVR-nummer: </b>45963128</p><p><b>Navn og adresse: </b></p></br>UNILEVER  DANMARK A/S</div></div></div></div></div></div></div>

4.06.2015Ændring i personkreds
CVR nummer:45963128.

NAVN:UNILEVER DANMARK A/S.

ADRESE:restads大道73号,克本哈夫南2300号
Kommune:København.
Bestyrelse:
Fratrådte:Jens Christian Voldmester,den 01.06.2015.

Direktion:
Fratr:,2015年6月1日,荷兰奥斯特韦克,伯格梅斯特·沃格斯兰635062千牛。




2015年3月6日,维里奇·安德林格,安德林格本人
CVR nummer:45963128

导航地址:


联合利华丹麦A/S
该问题出现在find方法中,因为registerHistoryTab与查看网页时不同

谢谢你的帮助

该问题出现在find方法中,因为registerHistoryTab与查看网页时不同


千万不要期望
请求返回的HTML与您在浏览器中看到的相同。处理HTML解析时,请使用响应中的内容以及在浏览器中看到的内容

注意,在这种情况下,只需将解析器从
html.parser
切换到
lxml
即可解决问题:

soup = BeautifulSoup(html, 'lxml')
现在我看到打印的是
64
,而不是
2

请注意,这需要安装
lxml
pip安装--升级lxml

另见:


“以及您在浏览器中看到的内容”。。。应该是“而不是你在浏览器中看到的”?