Python 从新闻文章中提取评论_Python_Comments_Web Scraping_Beautifulsoup

Python 从新闻文章中提取评论

python web-scraping

Python 从新闻文章中提取评论,python,comments,web-scraping,beautifulsoup,Python,Comments,Web Scraping,Beautifulsoup,我的问题与这里的问题类似：我试图从任何新闻文章中摘录评论。例如，我在这里有一个新闻url：我试图在python中使用BeautifulSoup来提取注释。然而，注释部分似乎要么嵌入在iframe中，要么通过javascript加载。通过firebug查看源代码不会显示注释部分的源代码。但通过浏览器的“查看源代码”功能显式查看注释的源代码确实如此。如何提取评论，尤其是当评论来自嵌入在新闻网页中的不同url时这就是我到目前为止所做的，尽管这并不多： import urllib2

我的问题与这里的问题类似：我试图从任何新闻文章中摘录评论。例如，我在这里有一个新闻url：我试图在python中使用BeautifulSoup来提取注释。然而，注释部分似乎要么嵌入在iframe中，要么通过javascript加载。通过firebug查看源代码不会显示注释部分的源代码。但通过浏览器的“查看源代码”功能显式查看注释的源代码确实如此。如何提取评论，尤其是当评论来自嵌入在新闻网页中的不同url时

这就是我到目前为止所做的，尽管这并不多：

    import urllib2
    from bs4 import BeautifulSoup

    opener = urllib2.build_opener()


    url = ('http://www.cnn.com/2013/08/28/health/stem-cell-brain/index.html')


urlContent = opener.open(url).read()
soup = BeautifulSoup(urlContent)
title = soup.title.text

print title
body = soup.findAll('body')
outfile = open("brain.txt","w+")
for i in body:
    i=i.text.encode('ascii','ignore')
    outfile.write(i +'\n')

对于我需要做什么或如何去做的任何帮助，我都将不胜感激。

这是在一个iframe中。检查id为dsq2的帧

现在iframe有一个src attr，它是到包含注释的的的链接

因此，在BeautifulSoup中：css_soup.selectdsq2并从src属性获取url。它将引导您进入一个只有注释的页面

要获取实际注释，从src获取页面后，可以使用以下css选择器：.post message p

如果您想加载更多评论，当您单击“更多评论”按钮时，它似乎会发送以下内容：

http://disqus.com/api/3.0/threads/listPostsThreaded?limit=50&thread=1660715220&forum=cnn&order=popular&cursor=2%3A0%3A0&api_key=E8Uh5l5fHZ6gD8U3KycjAIAk46f68Zw7C6eW8WSjZvCLXebZ7p0r1yrYDrLilk2F

您还需要尝试类似Selenium的东西来模拟浏览器的javascript功能。@SnakesandCoffee您不需要js来实现特定的功能案例这只是一个iframe，你可以下载整个页面。