Python编码确实减慢了我的应用程序的速度

Python编码确实减慢了我的应用程序的速度,python,encoding,runtime,Python,Encoding,Runtime,我正在研究一个数据密集型算法,速度是我的首要任务。本质上,它涉及到处理非常大的字符串。在不涉及太多细节的情况下,它可以在没有以下代码行的情况下在眨眼之间工作: html = unicode(strip_tags(html_source), errors='ignore') html2 = unicode(strip_tags(html_source2), errors='ignore') 如果我不将每个字符串编码为unicode,就会出现以下问题: UnicodeDecodeError: 'a

我正在研究一个数据密集型算法,速度是我的首要任务。本质上,它涉及到处理非常大的字符串。在不涉及太多细节的情况下,它可以在没有以下代码行的情况下在眨眼之间工作:

html = unicode(strip_tags(html_source), errors='ignore')
html2 = unicode(strip_tags(html_source2), errors='ignore')
如果我不将每个字符串编码为unicode,就会出现以下问题:

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 5747: ordinal not in range(128)
我能做些什么来简化这个过程吗?不在ascii范围内的少量数据对我来说并不太重要。我可以忽略所有的错误而不编码整个字符串吗


多谢各位!(我目前正在使用python2.7.3)

您可以使用
.decode()
删除所有非ASCII字符:


你可以使用
你的字符串。解码('ascii','ignore')
并去掉所有非ascii字符。哇。我觉得。。。不像15秒前那样聪明。非常感谢你!请随意发布答案,如果你愿意,我会检查她的。这真的提高了性能吗?是的,但有时我仍然会收到ascii错误。。。我得把它整理一下。例如,如果我使用urllib2生成facebook.com的源代码,然后尝试去除其中的html标记,我会得到ascii错误。即使我对它进行编码或解码。
your_string.decode('ascii', errors='ignore')