阅读网站时出现Django/Python编码错误
我想在一个网站上阅读几页的内容,对少数人来说,我的代码工作正常,但对其他人来说不行。奇怪的字符出现:аÄ…和更多阅读网站时出现Django/Python编码错误,python,encoding,beautifulsoup,decoding,Python,Encoding,Beautifulsoup,Decoding,我想在一个网站上阅读几页的内容,对少数人来说,我的代码工作正常,但对其他人来说不行。奇怪的字符出现:аÄ…和更多 articles = "" url = "http://www.someurl.com" sock = urllib.urlopen(url) content = sock.read() sock.close() soup = BeautifulSoup(content) div = soup.find("div", class_="col-d") ps = div.find_a
articles = ""
url = "http://www.someurl.com"
sock = urllib.urlopen(url)
content = sock.read()
sock.close()
soup = BeautifulSoup(content)
div = soup.find("div", class_="col-d")
ps = div.find_all("p")
for p in ps:
print type(p.get_text())
print type(p.get_text().encode('utf-8'))
print p.get_text()
输出为:
<type 'unicode'><type 'str'>różni się znacząco. Dziś, zgodnie z danymi Lion’s House i Home Brokera, przeciętnego zapłacić niespełna 2,1 tys. zł miesięcznie. Gdyby taką samą nieruchomość kupić na kredyt, to w pierwszym roku część ods
rÃżni siÄ™ znaczÄ…co.DziÅ›,zgodnie z danymi Lion€™s House i Home Brokera,przeciÄ™tnego zapÅaciÄniespeÅna 2,1 tys。米西™cznie。Gdyby takÄ…samÄ…nieruchomoÅ›kupi䲩na kredyt,致w pierwszym roku cz™Å›Ä25; ods
你知道有什么解决方案可以让这一切顺利进行吗?以下是一个使用库(和随机波兰网站)的方法 此代码查找以下HTML:
<div id="showMoreCSDiv"><a class="btn" id="showMoreCS" href="javascript:babGetMoreCS(20,'zgodnie z');">więcej</a></div>
当你调用
print(sock.headers['content-type'])
时,你会得到什么?@Jason Sperske:text/html;charset=utf-8使用this似乎有效:print requests.get(“http://pl.bab.la/slownik/polski-niemiecki/zgodnie-ztext
可能您的URL错误地报告了其字符编码这似乎是一个信息冲突的问题。非常感谢:)
<div id="showMoreCSDiv"><a class="btn" id="showMoreCS" href="javascript:babGetMoreCS(20,'zgodnie z');">więcej</a></div>
więcej