Javascript 抓取chrome扩展id';s

Javascript 抓取chrome扩展id';s,javascript,google-chrome,web-crawler,Javascript,Google Chrome,Web Crawler,我将如何为谷歌chrome扩展网站编写一个爬虫程序 我正在对chrome扩展做一些安全性研究。每个类别大约有100个扩展,我现在面临的问题是编写一个爬虫程序来至少获取UID。该网站似乎是由javascript更新的。如果我抓取html,我将一无所获,因为该网站似乎在稍后阶段加载页面的其余部分。换句话说,我需要的核心内容(即带有所有扩展元素的DOM)似乎是在我使用python获取HTML之后加载的。有什么想法吗?是的,该网页不包含数据-它是单独下载的。使用的URL如下所示: https://chr

我将如何为谷歌chrome扩展网站编写一个爬虫程序


我正在对chrome扩展做一些安全性研究。每个类别大约有100个扩展,我现在面临的问题是编写一个爬虫程序来至少获取UID。该网站似乎是由javascript更新的。如果我抓取html,我将一无所获,因为该网站似乎在稍后阶段加载页面的其余部分。换句话说,我需要的核心内容(即带有所有扩展元素的DOM)似乎是在我使用python获取HTML之后加载的。有什么想法吗?

是的,该网页不包含数据-它是单独下载的。使用的URL如下所示:

https://chrome.google.com/webstore/ajax/item?pv=1389738107&count=100&category=app/7-生产力

请注意,这必须是POST请求(没有任何POST数据),出于安全原因,其他请求将被拒绝。您必须删除文件开头的
“”]}'
,以及其他地方的
“[]\n”
,然后您应该获得可以通过
JSON.loads进行解析的正确JSON。数据不是很结构化,但应该足够好,可以爬行


请注意,
pv
参数看起来可能很快就会改变(这个Unix时间对应于四天前的一个日期),您可以使用Chrome开发者工具的网络选项卡查看当前的请求参数。
category
参数是类别的标识符-它是
https://chrome.google.com/webstore/category/
在网上商店链接中。

@IvanThai:如果答案有帮助,请随意接受:@WladimirWell+1这个问题似乎对我帮助很大!我也在做同样的事情。然而,当我对给定的URL发出请求时,我得到一个响应,说“发生了错误”。我需要在我的请求中发送其他内容吗?感谢您的帮助。@TheRookierLearner:您是否发送了邮寄请求?网络商店的工作方式没有真正的改变,只是类别标识符现在不同了,
pv
参数有了一个新的值(正如我在文章中所指出的,这个值可能每隔几天就会改变一次)。我用当前的URL参数更新了答案。是的,我做了。但我收到了一条“坏请求”的信息。我还尝试使用
https://chrome.google.com/webstore/ajax/item
URL。(更多细节)但我收到了一条XMLHttpError消息。另外,当我使用Scrapy shell向Chrome Web Store发出请求时,我只得到左侧栏作为响应,而不是整个页面。