Python 2.7 如何将给定url的标题提取为字符串并将其存储在python2.7中的文本文件中
这是我用python编写的代码:Python 2.7 如何将给定url的标题提取为字符串并将其存储在python2.7中的文本文件中,python-2.7,unicode,beautifulsoup,Python 2.7,Unicode,Beautifulsoup,这是我用python编写的代码: from bs4 import BeautifulSoup url="http://www.thehindu.com/sci-tech/science/iit-bombay-birds-eye-view-and-quantum-biology/article18191268.ece" htmltext = urllib.urlopen(url).read() soup = BeautifulSoup(htmltext,"lxml") webpage_title
from bs4 import BeautifulSoup
url="http://www.thehindu.com/sci-tech/science/iit-bombay-birds-eye-view-and-quantum-biology/article18191268.ece"
htmltext = urllib.urlopen(url).read()
soup = BeautifulSoup(htmltext,"lxml")
webpage_title = soup.find_all('h1', attrs = {"class": "title"})
print webpage_title
这是我得到的输出:
[<h1 class="title">\nIIT Bombay: Bird\u2019s eye view and quantum biology\n</h1>]
我希望这个输出被存储为字符串,这样我就可以把它写入一个文件
我不希望标题使用unicode
如果是这样的话,那么我想要一种将unicode转换为ascii字符串的方法
webpage_title = webpage_title[0].get_text(strip=True)
默认情况下,BS将请求内容读取为utf-8
默认情况下,BS将请求内容读取为
utf-8
用该内容替换网页标题=…
,但现在如何将此网页标题作为文本写入文件?UnicodeEncodeError:“ascii”编解码器无法对16位的字符u'\u2019'进行编码:序号不在范围(128)内。请对此提供帮助。用该字符替换您的网页\u title=…
,但现在如何将此网页\u title作为文本写入文件?UnicodeEncodeError:“ascii”编解码器无法对第16位的字符u'\u2019'进行编码:序号不在范围(128)内。请提供帮助。
webpage_title = webpage_title[0].get_text(strip=True)