Scrapy 刮皮机及#34; 在HTML响应中引用字符?

Scrapy 刮皮机及#34; 在HTML响应中引用字符?,scrapy,Scrapy,我有一个Scrapy spider,它正在获取一个网页(碰巧是从ESPN获取的),然后使用Selector.re()从网页中提取一个JSON字符串 然后,我将JSON解析为: start = j[0].index('{') json_data = json.loads(j[0][start:-1]) 在JSON字符串包含带有嵌入引号字符的字符串之前,这一切都可以正常工作。如果我使用浏览器的视图源代码查看,我会看到JSON字符串的一部分如下所示: "shortLinkText":"Geo

我有一个Scrapy spider,它正在获取一个网页(碰巧是从ESPN获取的),然后使用Selector.re()从网页中提取一个JSON字符串

然后,我将JSON解析为:

start = j[0].index('{')    
json_data = json.loads(j[0][start:-1])
在JSON字符串包含带有嵌入引号字符的字符串之前,这一切都可以正常工作。如果我使用浏览器的视图源代码查看,我会看到JSON字符串的一部分如下所示:

"shortLinkText":"Georgia Tech and "Fab Three"  beat Jackson State"
嵌入的引号字符已编码为HTML等效项。但是,在Scrapy中返回的字符串中,该字符串已被解码为引号字符:

"shortLinkText":"Georgia Tech and "Fab Three" beat Jackson State"
这会导致JSON解析器失败,原因显而易见


对于这种情况有什么解决办法吗?强制Scrapy不解码HTML字符的方法?

检查,非常感谢指针!我在这里搜索了我问题的各种变体,但什么都找不到——我想“原始HTML”才是真正的魔力:-)
"shortLinkText":"Georgia Tech and "Fab Three" beat Jackson State"