Python 什么'；s使用beautifulsoup&；django应用程序中的请求？_Python_Django_Web Scraping_Beautifulsoup

Python 什么'；s使用beautifulsoup&；django应用程序中的请求？

python django web-scraping

Python 什么'；s使用beautifulsoup&；django应用程序中的请求？,python,django,web-scraping,beautifulsoup,Python,Django,Web Scraping,Beautifulsoup,我问了一个我不清楚的问题。我已经成功地从一个网站主页上抓取帖子。下一步是跟随文章的链接到它的详细信息页面，这样我就可以抓取详细信息内容。这是我试图修改的代码，但它不起作用。请注意，我是一个新手，我正在django应用程序中使用它 def sprinkle(): url_two = 'http://www.example.com' html = requests.get(url_two, headers=headers) soup = BeautifulSoup(html.

我问了一个我不清楚的问题。我已经成功地从一个网站主页上抓取帖子。下一步是跟随文章的链接到它的详细信息页面，这样我就可以抓取详细信息内容。这是我试图修改的代码，但它不起作用。请注意，我是一个新手，我正在django应用程序中使用它

def sprinkle():
    url_two = 'http://www.example.com'
    html = requests.get(url_two, headers=headers)
    soup = BeautifulSoup(html.text, 'html5lib')
    titles = soup.find_all('div', {'class': 'entry-pos-1'})

    entries = [{'href': url_two + div.a.get('href'),
                'comment': BeautifulSoup(url_two + div.a.get('href')).find_all('div', {'class': 'article-body'}),
                'src': url_two + div.a.img.get('data-original'),
                'text': div.find('p', 'entry-title').text,
                } for div in titles][:6]

    return entries

在我看来

sp = sprinkle()

context = {
   "comment": sp
}

在我的模板中

{% for s in sp %}
   {{s.comment}}
{% endfor %}

在html中，它显示的是

[]

我正在努力清理的URL如下所示

http://www.example.com//article/218582/detail-art
http://www.example.com//article/218817/detail-science
http://www.example.com//article/218542/detail-theatre

如何使用链接转到详细信息页面并从该页面中提取数据？

这将起作用

def sprinkle():
        url_two = 'http://www.vladtv.com'
        html = requests.get(url_two, headers=headers)
        soup = BeautifulSoup(html.text, 'html5lib')
        titles = soup.find_all('div', {'class': 'entry-pos-1'})

        def make_soup(url):
            the_comments_page = requests.get(url, headers=headers)
            soupdata = BeautifulSoup(the_comments_page.text, 'html5lib')
            comment = soupdata.find('div', {'class': 'article-body'})
            para = comment.find_all('p')
            return para

        entries = [{'href': url_two + div.a.get('href'),
                    'src': url_two + div.a.img.get('data-original'),
                    'text': div.find('p', 'entry-title').text,
                    'comments': make_soup(url_two + div.a.get('href'))
                    } for div in titles][:6]

        return entries

但按照我的解决方法，方括号中仍然显示

你能添加你正在抓取的url吗？另外，我回答的最后一个问题是关于一个错误，因此与现在发生的事情根本没有关系。您还意识到

BeautifulSoup（url_two+div.a.get（'href'））.find_all（'div'，{'class'：'article body'）

返回一个空列表？对。这就是我在这里的原因。说清楚，这样我就不会浪费你的时间。我已经刮掉了一些有链接的帖子。我想跟随这些链接到细节页面，然后刮除任何身体内容。是的，你的刮除不起作用，你需要在担心django之前对其进行排序。正如我所说的，如果你分享这个链接，我需要5分钟来解决这个问题，如果没有它或html，我想任何人都帮不上忙you@PadraicCunningham我在上面编辑了我的问题，这样你就可以看到不同页面的链接，但它们不是你真正想要的吗？您的代码中有一些错误，因此在没有看到实际的html的情况下，我完全不知道什么不起作用。