Search BeautifulSoup-使用“提取标签内的文本”;文本=”文本;

Search BeautifulSoup-使用“提取标签内的文本”;文本=”文本;,search,beautifulsoup,extract,partial,findall,Search,Beautifulsoup,Extract,Partial,Findall,我在读《用Python抓取网页》一书,这本书很不错,但有时(令人沮丧地)掩盖了读者需要使用的代码,而没有显示输出,也没有提到相关的限制 我花了4个小时试图找出原因: fullText.findAll('a', text="bees") 返回有关以下标记的空字符串: <a class="search">Why are the bees in my soup bees are bad</a> 无论如何,我只想问一个由两部分组成的问题: 如果我已使用以下命令输出所有

我在读《用Python抓取网页》一书,这本书很不错,但有时(令人沮丧地)掩盖了读者需要使用的代码,而没有显示输出,也没有提到相关的限制

我花了4个小时试图找出原因:

fullText.findAll('a', text="bees")
返回有关以下标记的空字符串:

<a class="search">Why are the bees in my soup bees are bad</a>

无论如何,我只想问一个由两部分组成的问题: 如果我已使用以下命令输出所有标记:

fullText.findAll('strong')
  • [不转换为字符串]是否有一种方法可以使用findAll或其他函数成功搜索,以查看蜜蜂是否作为标记内文本的一部分出现,而不必搜索标记内的全文
  • findAll是否有一个BeautifulSoup或其他函数,它将从输出中删除标记定义,并且只显示标记内的全文
  • 我清楚地知道,第二个问题以前曾被问过。我试过的都不管用。如果你能把你的输出包括进来,那就太好了,这样我就知道我应该期望什么,并且在遇到问题时可以比较结果

  • soup.find_all('strong',string=re.compile('bee”)
  • 这将返回所有
    strong
    标记的列表,其中包含
    “bee”
    ,作为文本的一部分。它使用正则表达式

  • string
    属性将执行此操作

    soup.find_all('strong')[0]。字符串

  • soup.find_all('strong')
    将返回所有强标记的列表,因此我对其进行索引以访问特定标记

  • soup.find_all('strong',string=re.compile('bee”)
  • 这将返回所有
    strong
    标记的列表,其中包含
    “bee”
    ,作为文本的一部分。它使用正则表达式

  • string
    属性将执行此操作

    soup.find_all('strong')[0]。字符串


  • soup.find_all('strong')
    将返回所有强标记的列表,因此我对其进行了索引以访问特定标记。

    非常感谢shiva。这两项工作和第二项工作都比我提出的问题更有效。我试着在前后阅读和实验python.org的“re”文档,包括“compile”,但完全失败了。我希望它包括“输出”,这样我就知道我需要寻找什么。YouTube视频也没什么帮助,但我不会占用你更多的时间,我会四处阅读,并会为其他同样感到困惑的用户发布一篇关于它的解释。真的,非常感谢你。你救了我一个巨大的心痛。如果这为你解决了问题,那么你可以接受答案。不客气。老实说,我一开始不知道复选标记是什么意思。答案肯定被接受,谢谢。非常感谢湿婆。这两项工作和第二项工作都比我提出的问题更有效。我试着在前后阅读和实验python.org的“re”文档,包括“compile”,但完全失败了。我希望它包括“输出”,这样我就知道我需要寻找什么。YouTube视频也没什么帮助,但我不会占用你更多的时间,我会四处阅读,并会为其他同样感到困惑的用户发布一篇关于它的解释。真的,非常感谢你。你救了我一个巨大的心痛。如果这为你解决了问题,那么你可以接受答案。不客气。老实说,我一开始不知道复选标记是什么意思。答案肯定被接受,谢谢。
    fullText.findAll('strong')