仅从Python中的网页内容下载文本

仅从Python中的网页内容下载文本,python,http,urllib2,Python,Http,Urllib2,如何仅从Python中的网页下载text/html/javascript 我试图得到一些关于博客作者所写文本的统计数据。只需要文本,我想通过避免下载图片等来提高我的程序速度 我能够将文本从HTML标记语言中分离出来。因此,我的意图主要是避免在网页中下载传统内容(如图像、.swf等) 到目前为止,我使用: user_agent = 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_4; en-US) AppleWebKit/534.3 (KHTML,

如何仅从Python中的网页下载text/html/javascript

我试图得到一些关于博客作者所写文本的统计数据。只需要文本,我想通过避免下载图片等来提高我的程序速度

我能够将文本从HTML标记语言中分离出来。因此,我的意图主要是避免在网页中下载传统内容(如图像、.swf等)

到目前为止,我使用:

user_agent = 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_4; en-US) AppleWebKit/534.3 (KHTML, like Gecko) Chrome/6.0.472.63 Safari/534.3'
        headers = {'User-Agent': user_agent}
req = urllib2.Request(url, None, headers)
response = urllib2.urlopen(req, timeout=60)
content_type = response.info().getheader('Content-Type')
if 'text/html' in content_type:
   return response.read()

但我不确定我是否做了正确的事情(即只下载文本)

Python beautifulsou是解析网页的最佳工具之一

import bs4
import urllib.request

webpage=str(urllib.request.urlopen(link).read())
soup = bs4.BeautifulSoup(webpage)

print(soup.get_text())

Python BeautifulSoup是解析网页的最佳工具之一

import bs4
import urllib.request

webpage=str(urllib.request.urlopen(link).read())
soup = bs4.BeautifulSoup(webpage)

print(soup.get_text())

出于性能原因,我想这样做(我将更新我的问题)。因此,我不知道你的答案是否适合我。但是,它很有用,因此+1出于性能原因,我想这样做(我将更新我的问题)。因此,我不知道你的答案是否适合我。但是它很有用,因此+1I建议查看库以更轻松地处理HTTP请求。我建议查看库以更轻松地处理HTTP请求。