Python Beautifulsoup获取的内容与实际文本不同_Python_Html_Beautifulsoup

Python Beautifulsoup获取的内容与实际文本不同

python html

Python Beautifulsoup获取的内容与实际文本不同,python,html,beautifulsoup,Python,Html,Beautifulsoup,正如标题所说；我得到的内容与页面上的实际内容不同。我试图从一组特定的标签中获取“href”信息和“p”标签（class=center block）内的文本。当尝试从链接（下面的第二个链接）获取“href”属性时，它返回“/Login”文本，而不是href属性中的内容。同样，当我尝试获取“p”标记的内部文本时，它返回“companyname”文本。因此，它返回的值与实际内容完全不同。我可以接触到其他大多数元素，但无法具体地获取这两个元素的实际内容，即使在浏览器中检查元素时，我可以看到实际的内容 P

正如标题所说；我得到的内容与页面上的实际内容不同。我试图从一组特定的标签中获取“href”信息和“p”标签（class=center block）内的文本。当尝试从链接（下面的第二个链接）获取“href”属性时，它返回“/Login”文本，而不是href属性中的内容。同样，当我尝试获取“p”标记的内部文本时，它返回“companyname”文本。因此，它返回的值与实际内容完全不同。我可以接触到其他大多数元素，但无法具体地获取这两个元素的实际内容，即使在浏览器中检查元素时，我可以看到实际的内容

Python代码：


r=请求。获取（'https://www.examplesite.com/winners，headers=headers）
汤=BeautifulSoup（r.含量，'lxml'）
获奖者名单=[汤中每一项都有。查找所有（'div'，class='bottom'）]
list of winners.remove（list of winners[0]）#0索引元素为none，请将其从列表中删除。
索引计数器=0#字典索引计数器
获胜者名单中的i：
##获取链接
self.contest\u link[index\u counter]=i.find（'a'）['href']
##得名
self.contest\u title[index\u counter]=i.find（'p'，class='center-block'）.text.strip（）
索引_计数器+=1
索引计数器=0#重置索引计数器

html代码：

<div class="bottom">
  <div class="likes_count">
    <a href="javascript:void()" style="color: #333;" class="contest-like-unlike" data-type="like" data-contest-id="24454">
        <i class="fa fa-heart-o"></i>
    </a>
    <span class="popover_win">9 Likes</span>
  </div>
  <a style="float: right" href="https://www.example.com/retail-business/retail-business-24604">
   <p class="center-block">Retail Business</p>
  </a><span>&nbsp;</span>
</div>


9喜欢

页面的其余部分在哪里。？您试图检索的内容似乎是由javascript加载的？@wwii我认为没有必要共享整个html代码，因为没有太多内容可看。差不多就是这样。另一个原因是，我认为这可能是因为一些其他原因，而不是直接的html标记问题……我看到了数据，但我看不到您用于提取感兴趣部分的内容，这是示例中缺少的-从标记中提取文本的最小代码<代码>代码：-你发布的数据不是代码。@cylee这是我怀疑的。有没有其他方法可以获得您认为的实际内容？