Python从网页中刮取JSON

Python从网页中刮取JSON,python,json,web-scraping,Python,Json,Web Scraping,我正在尝试从网页中提取javascript变量的内容。该网页是一个搜索页面,当您查看其来源时,它在页面上有类似的内容 <script>var test1='balah';var catalog={};var test2='blah'</script> var test1='balah';var catalog={};var test2='blah' 其中,catalog是一个大型嵌套json结构字符串 我知道如何解析它,但是如果我已经在一个字符串变量中包含了整个页面的

我正在尝试从网页中提取javascript变量的内容。该网页是一个搜索页面,当您查看其来源时,它在页面上有类似的内容

<script>var test1='balah';var catalog={};var test2='blah'</script>
var test1='balah';var catalog={};var test2='blah'
其中,
catalog
是一个大型嵌套json结构字符串


我知道如何解析它,但是如果我已经在一个字符串变量中包含了整个页面的html内容,那么如何从网页中获取json字符串呢?

使用正则表达式怎么样

#-*-编码:utf-8-*-
进口稀土
content=“var test1='balah';var catalog={'Year':'2019'};var test2='blah''
p=重新编译(r'[\d\d]+目录=([\d\d]+?);'))
m=p.match(内容)
如果m:
结果=m组(1)
打印结果

结果将是
{'Year':'2019'}

Beautiful Soup()始终是一个很好的起点,尽管如果目标数据以HTML格式呈现而不是在
标记中呈现会更好。您可以使用Beautiful Soup更轻松地抓取
标记,然后将这些内容输入其他内容。请尝试下面的链接。它使用漂亮的soap、python和selenium来实现web废弃。需要注意的一点是,您需要确保regex表达式只匹配您要查找的javascript字符串。