Python/Requets/Beauty Soup基本刮削_Python_Python 3.x_Beautifulsoup_Python Requests_Python Requests Html

Python/Requets/Beauty Soup基本刮削

python python-3.x

Python/Requets/Beauty Soup基本刮削,python,python-3.x,beautifulsoup,python-requests,python-requests-html,Python,Python 3.x,Beautifulsoup,Python Requests,Python Requests Html,希望你们都好。今天早些时候，我写了一个HTML网站的基本网页，内容与此类似。我遵循了一个教程，你们可以从我的代码中看到，我对用Python编码有点生疏。希望得到一些关于删除这个网站的指导从注释掉的代码中可以看出 #print(results.prettify()) 我能够成功地打印出网页的全部内容。然而，我想做的是缩减我打印出来的内容，这样我就可以打印出相关的内容。页面上有很多我不想要的内容，我想把它们推敲出来。有人有没有想过为什么代码底部的for循环没有顺序地抓取HTML的xlmins单元

希望你们都好。今天早些时候，我写了一个HTML网站的基本网页，内容与此类似。我遵循了一个教程，你们可以从我的代码中看到，我对用Python编码有点生疏。希望得到一些关于删除这个网站的指导

从注释掉的代码中可以看出

#print(results.prettify())

我能够成功地打印出网页的全部内容。然而，我想做的是缩减我打印出来的内容，这样我就可以打印出相关的内容。页面上有很多我不想要的内容，我想把它们推敲出来。有人有没有想过为什么代码底部的for循环没有顺序地抓取HTML的xlmins单元中的段落并将其打印出来？请参阅下面的代码了解更多信息

import requests
from bs4 import BeautifulSoup

URL = "http://www.gutenberg.org/files/7142/7142-h/7142-h.htm"
page = requests.get(URL)

#we're going to create an object in Beautiful soup that will scrape it.
soup = BeautifulSoup(page.content, 'html.parser')
#this line of code takes

results = soup.find(xmlns='http://www.w3.org/1999/xhtml')
#print(results.prettify())
job_elems = results.find_all('p', xlmins="http://www.w3.org/1999/xhtml")

for job in job_elems:
    paragraph = job.find("p", xlmins='http://www.w3.org/1999/xhtml')
    print(paragraph.text.strip)

没有标记包含属性xlmins=http://www.w3.org/1999/xhtml，则只有顶部的HTML标记可以。删除该部分，您将获得所有段落

job_elems = results.find_all('p')

for job in job_elems:
    print(job.text.strip())