Python 在编码为ascii时丢失引号

Python 在编码为ascii时丢失引号,python,regex,utf-8,ascii,Python,Regex,Utf 8,Ascii,我想从新闻文章的引文中摘录这段文字。为此,第一步涉及提取新文章。然后在第二步中,使用正则表达式获取报价。我不确定,但当我编码成ascii码时,引号会丢失。有办法解决这个问题吗 from goose import Goose from requests import get response = get('http://www.nytimes.com/2015/05/19/health/study-finds-dense-breast-tissue-isnt-always-a-high-canc

我想从新闻文章的引文中摘录这段文字。为此,第一步涉及提取新文章。然后在第二步中,使用正则表达式获取报价。我不确定,但当我编码成ascii码时,引号会丢失。有办法解决这个问题吗

from goose import Goose
from requests import get

response = get('http://www.nytimes.com/2015/05/19/health/study-finds-dense-breast-tissue-isnt-always-a-high-cancer-risk.html?src=me&ref=general')
extractor = Goose()
article = extractor.extract(raw_html=response.content)
text = article.cleaned_text
encode_text=text.encode('ascii','ignore')
comments=re.findall('"([^"]*)"', encode_text)
print comments

不要使用暴力破坏一切,而是使用将文本翻译成ASCII

>>> unidecode.unidecode(u'“…”')
'"..."'

请提供一个使用示例。从页面:
>>从unidecode导入unidecode
>unidecode(u'ko\u017eu\u0161\u010dek')
'kozuscek'
>unidecode(u'30\U0001d5c4\U0001d5c6/\U0001d5c1')
'30 km/h'
《北京》
@IgnacioVazquez Abrams你为什么不在你的答案中添加一个例子呢。