Scrapy 刮皮机及#34; 在HTML响应中引用字符？_Scrapy

Scrapy 刮皮机及#34; 在HTML响应中引用字符？

scrapy

Scrapy 刮皮机及#34; 在HTML响应中引用字符？,scrapy,Scrapy,我有一个Scrapy spider，它正在获取一个网页（碰巧是从ESPN获取的），然后使用Selector.re（）从网页中提取一个JSON字符串然后，我将JSON解析为： start = j[0].index('{') json_data = json.loads(j[0][start:-1]) 在JSON字符串包含带有嵌入引号字符的字符串之前，这一切都可以正常工作。如果我使用浏览器的视图源代码查看，我会看到JSON字符串的一部分如下所示： "shortLinkText":"Geo

我有一个Scrapy spider，它正在获取一个网页（碰巧是从ESPN获取的），然后使用Selector.re（）从网页中提取一个JSON字符串

然后，我将JSON解析为：

start = j[0].index('{')    
json_data = json.loads(j[0][start:-1])

在JSON字符串包含带有嵌入引号字符的字符串之前，这一切都可以正常工作。如果我使用浏览器的视图源代码查看，我会看到JSON字符串的一部分如下所示：

"shortLinkText":"Georgia Tech and &#34;Fab Three&#34;  beat Jackson State"

嵌入的引号字符已编码为HTML等效项。但是，在Scrapy中返回的字符串中，该字符串已被解码为引号字符：

"shortLinkText":"Georgia Tech and "Fab Three" beat Jackson State"

这会导致JSON解析器失败，原因显而易见

对于这种情况有什么解决办法吗？强制Scrapy不解码HTML字符的方法？

检查，非常感谢指针！我在这里搜索了我问题的各种变体，但什么都找不到——我想“原始HTML”才是真正的魔力：-）

"shortLinkText":"Georgia Tech and "Fab Three" beat Jackson State"