使用Python从javascript提取数据
我是Python的新用户,我从我的前任那里继承了一个Python笔记本,我想改进它。它的目的是从网站上获取产品的详细信息 工作原理:使用Python从javascript提取数据,javascript,python,json,extract,Javascript,Python,Json,Extract,我是Python的新用户,我从我的前任那里继承了一个Python笔记本,我想改进它。它的目的是从网站上获取产品的详细信息 工作原理: 它使用beautiful soup从网站上抓取脚本: source = urllib2.urlopen('http://www.testwebsite.html').read() soup = bs4.BeautifulSoup(source) job_postings = soup.findAll("script") job_postings = [jp fo
- 它使用beautiful soup从网站上抓取脚本:
source = urllib2.urlopen('http://www.testwebsite.html').read() soup = bs4.BeautifulSoup(source) job_postings = soup.findAll("script") job_postings = [jp for jp in job_postings if not jp.get('type') is None and ''.join(jp.get('type')) =="text/javascript" and ''.join(jp.get('type')) =="text/javascript"]
jsonfile = re.findall(r'wf.appData.product_data_[A-Z]{4}[0-9]{4} = (\{.*});YUI_config.app.product_data_',str(job_postings))
我有这个:
{“sku”:“TEST123”,“is_grid_view”:false,“default_img_display”:0,“manufacturer_name”:“Supplier1”,“product_name”:“product test”,“part_number”:“1234”,“list_price”:1000,“is_price_hidden”:false,“base_price”:1000,“has_opt”:true,“opt_details”:[{“option_id”:“,“regular_price”:2681.25],“has_free_shipping_shipping”:false,“total_数量”:1,“display_set_数量”:1,“is_standard_layout”:true,“页面类型”:“ProductPage”}
我现在的问题是:我想将“库存信息”列表添加到我的数据中
我试过:
jsonfile = re.findall(r'inventory_info' = (\{.*}),str(job_postings))
或
这两个都不管用
我知道Python的知识非常有限,所以我现在有点迷路了。
谢谢你的帮助。你可能已经找到了问题的答案,但不管怎样,答案就在这里 要获取
库存信息
,您始终可以进行拆分(假设作业过账已转换为字符串类型
),如下所示:
欢迎来到StackOverflow!很高兴看到新用户提出正确的问题!
Jsonfile = re.compile('inventory_info' = ({.*?});', re.DOTALL)
inventory_info = job_postings.split("inventory_info:")[1].split("}")[0] + "}"
job_postings += inventory_info