Web scraping Webscraping-数据提取-web浏览器google chrome扩展
下午好 我试图从一家杂货店提取所有的产品(名称、价格、图片) 我正在使用网络刮刀(谷歌浏览器扩展)。 当我开始抓取时,我可以看到它正在运行,但是它不会返回任何数据。 当我点击数据预览时,我可以看到数据。然而,我一直收到消息没有数据刮 这是我创建的网站地图:Web scraping Webscraping-数据提取-web浏览器google chrome扩展,web-scraping,google-chrome-extension,screen-scraping,data-extraction,Web Scraping,Google Chrome Extension,Screen Scraping,Data Extraction,下午好 我试图从一家杂货店提取所有的产品(名称、价格、图片) 我正在使用网络刮刀(谷歌浏览器扩展)。 当我开始抓取时,我可以看到它正在运行,但是它不会返回任何数据。 当我点击数据预览时,我可以看到数据。然而,我一直收到消息没有数据刮 这是我创建的网站地图: {“id”:“collectandgo”,“startUrl”:[“”],“selectors”:[{“id”:“categories”,“type”:“SelectorLink”,“parentSelectors”:[“\U root”],
{“id”:“collectandgo”,“startUrl”:[“”],“selectors”:[{“id”:“categories”,“type”:“SelectorLink”,“parentSelectors”:[“\U root”],“selector”:“div#arbo.nav_uuBranch.branch”,“multiple”:true,“delay”:0},{“id”:“items”,“type”:“SelectorElement”,“ParentSelector”:“[“categories”,“selector”:“div.product\uuu内部”,“multiple”:true,“delay”:0},{“id”:“productbody”,“type”:”:“SelectorElement”、“parentSelectors”:[“items”],“selector”:“div.product\uu body”,“multiple”:true,“delay”:0},{“id”:“image”,“type”:“SelectorImage”,“parentSelectors”:[“productbody”],“selector”:“a.product\uu image”,“multiple”:false,“delay”:0},{“id”:“productname”,“type”:“SelectorText”,“parentSelector”:[“productbody”],“selector”:“div“:false,“regex”:“,”delay“:”0},{”id“:”productdescription“,”type“:”SelectorText“,”parentSelectors“:”[”productbody“,”selector“,”div.product\uu description“,”multiple“,”false“,”regex“,”delay“,”id“:”productweight“,”type“:”selector“:”selector“,”div.product\uu weight“,”multiple“,”false,“regex“,”delay“,”0},{”id:”“prijs”、“type”:“SelectorText”、“parentSelectors”:[“productbody”],“selector”:“div.product_uuprice-piece”、“multiple”:false,“regex”:“delay”:0},{“id”:“eenheidsprijs”、“type”:“SelectorText”、“parentSelectors”:[“productbody”],“selector”:“div.product_uprice-unit”、“multiple”:false,“regex”:“delay”:0},{“id”:“korting aankoop”Hoelhveeeid:“type”:SelectorText、“parentSelectors”:[“productbody”],“selector”:“a.promotion\u min-amount”,“multiple”:false,“regex”:“delay”:0}]}我复制了你的
JSON
和它,然后将它复制到文件stack.JSON
,然后在将解析器设置为JSON
后将它加载到BaseX
数据库foo
,如下所示:
thufir@dur:~/json$
thufir@dur:~/json$ basex
BaseX 9.0.1 [Standalone]
Try 'help' to get more information.
>
> list
Name Resources Size Input Path
-------------------------------------------------------------------------------
com.w3schools.books 1 6290 https://www.w3schools.com/xml/books.xml
twitter 75 457900
w3school_data 1 5209 https://www.w3schools.com/xml/note.xml
3 database(s).
>
> create database foo
Database 'foo' created in 138.51 ms.
>
> set parser json
PARSER: json
>
> add stack.json
Resource(s) added in 74.72 ms.
>
> list
Name Resources Size Input Path
-------------------------------------------------------------------------------
com.w3schools.books 1 6290 https://www.w3schools.com/xml/books.xml
foo 1 5600
twitter 75 457900
w3school_data 1 5209 https://www.w3schools.com/xml/note.xml
4 database(s).
>
> open foo
Database 'foo' was opened in 0.04 ms.
>
> xquery /
<json type="object">
<__id>collectandgo</__id>
<startUrl type="array">
<_>https://colruyt.collectandgo.be/cogo/nl/home</_>
</startUrl>
<selectors type="array">
<_ type="object">
<id>categories</id>
<type>SelectorLink</type>
<parentSelectors type="array">
<_>_root</_>
</parentSelectors>
<selector>div#arbo.nav__branch.branch</selector>
<multiple type="boolean">true</multiple>
<delay type="number">0</delay>
</_>
<_ type="object">
<id>items</id>
<type>SelectorElement</type>
<parentSelectors type="array">
<_>categories</_>
</parentSelectors>
<selector>div.product__inner</selector>
<multiple type="boolean">true</multiple>
<delay type="number">0</delay>
</_>
<_ type="object">
<id>productbody</id>
<type>SelectorElement</type>
<parentSelectors type="array">
<_>items</_>
</parentSelectors>
<selector>div.product__body</selector>
<multiple type="boolean">true</multiple>
<delay type="number">0</delay>
</_>
<_ type="object">
<id>image</id>
<type>SelectorImage</type>
<parentSelectors type="array">
<_>productbody</_>
</parentSelectors>
<selector>a.product__image</selector>
<multiple type="boolean">false</multiple>
<delay type="number">0</delay>
</_>
<_ type="object">
<id>productname</id>
<type>SelectorText</type>
<parentSelectors type="array">
<_>productbody</_>
</parentSelectors>
<selector>div.product__name</selector>
<multiple type="boolean">false</multiple>
<regex/>
<delay type="number">0</delay>
</_>
<_ type="object">
<id>productdescription</id>
<type>SelectorText</type>
<parentSelectors type="array">
<_>productbody</_>
</parentSelectors>
<selector>div.product__description</selector>
<multiple type="boolean">false</multiple>
<regex/>
<delay type="number">0</delay>
</_>
<_ type="object">
<id>productweight</id>
<type>SelectorText</type>
<parentSelectors type="array">
<_>productbody</_>
</parentSelectors>
<selector>div.product__weight</selector>
<multiple type="boolean">false</multiple>
<regex/>
<delay type="number">0</delay>
</_>
<_ type="object">
<id>prijs</id>
<type>SelectorText</type>
<parentSelectors type="array">
<_>productbody</_>
</parentSelectors>
<selector>div.product__price-piece</selector>
<multiple type="boolean">false</multiple>
<regex/>
<delay type="number">0</delay>
</_>
<_ type="object">
<id>eenheidsprijs</id>
<type>SelectorText</type>
<parentSelectors type="array">
<_>productbody</_>
</parentSelectors>
<selector>div.product__price-unit</selector>
<multiple type="boolean">false</multiple>
<regex/>
<delay type="number">0</delay>
</_>
<_ type="object">
<id>korting-aankoop-hoeveelheid</id>
<type>SelectorText</type>
<parentSelectors type="array">
<_>productbody</_>
</parentSelectors>
<selector>a.promotion__min-amount</selector>
<multiple type="boolean">false</multiple>
<regex/>
<delay type="number">0</delay>
</_>
</selectors>
</json>
Query executed in 270.99 ms.
>
thufir@dur:~/json$
thufir@dur:~/json$basex
BaseX 9.0.1[独立]
请尝试“帮助”以获取更多信息。
>
>名单
名称资源大小输入路径
-------------------------------------------------------------------------------
com.w3schools.books 16290https://www.w3schools.com/xml/books.xml
推特75 457900
w3school_数据15209https://www.w3schools.com/xml/note.xml
3个数据库。
>
>创建数据库foo
数据库“foo”创建于138.51毫秒。
>
>设置语法分析器json
解析器:json
>
>添加stack.json
74.72 ms中添加的资源。
>
>名单
名称资源大小输入路径
-------------------------------------------------------------------------------
com.w3schools.books 16290https://www.w3schools.com/xml/books.xml
富1 5600
推特75 457900
w3school_数据15209https://www.w3schools.com/xml/note.xml
4个数据库。
>
>开福
数据库“foo”在0.04毫秒内打开。
>
>xquery/
collectandgo
https://colruyt.collectandgo.be/cogo/nl/home
类别
选择器链接
_根
分队
真的
0
项目
选择元素
类别
内部产品分类
真的
0
产品体
选择元素
项目
产品部
真的
0
形象
选择器图像
产品体
a、 产品图片
假的
0
产品名称
选择文本
产品体
部门产品名称
假的
0
产品描述
选择文本
产品体
部门产品描述
假的
0
产品重量
选择文本
产品体
部门产品重量
假的
0
普里斯
选择文本
产品体
部门产品价格单
假的
0
伊恩海德斯普利斯酒店
选择文本
产品体
部门产品价格单位
假的
0
科廷·安库普·霍韦尔海德
选择文本
产品体
a、 促销最低金额
假的
0
查询以270.99毫秒执行。
>
您希望对数据运行什么查询
您可能想查看
Selenium
或其他用于抓取数据的工具。Selenium
和BaseX
都使用Xquery
并提供Java API。我复制了您的JSON
和它,然后将其复制到文件stack.JSON
,然后将其加载到BaseX
数据库foo
将解析器设置为JSON
后,如下所示:
thufir@dur:~/json$
thufir@dur:~/json$ basex
BaseX 9.0.1 [Standalone]
Try 'help' to get more information.
>
> list
Name Resources Size Input Path
-------------------------------------------------------------------------------
com.w3schools.books 1 6290 https://www.w3schools.com/xml/books.xml
twitter 75 457900
w3school_data 1 5209 https://www.w3schools.com/xml/note.xml
3 database(s).
>
> create database foo
Database 'foo' created in 138.51 ms.
>
> set parser json
PARSER: json
>
> add stack.json
Resource(s) added in 74.72 ms.
>
> list
Name Resources Size Input Path
-------------------------------------------------------------------------------
com.w3schools.books 1 6290 https://www.w3schools.com/xml/books.xml
foo 1 5600
twitter 75 457900
w3school_data 1 5209 https://www.w3schools.com/xml/note.xml
4 database(s).
>
> open foo
Database 'foo' was opened in 0.04 ms.
>
> xquery /
<json type="object">
<__id>collectandgo</__id>
<startUrl type="array">
<_>https://colruyt.collectandgo.be/cogo/nl/home</_>
</startUrl>
<selectors type="array">
<_ type="object">
<id>categories</id>
<type>SelectorLink</type>
<parentSelectors type="array">
<_>_root</_>
</parentSelectors>
<selector>div#arbo.nav__branch.branch</selector>
<multiple type="boolean">true</multiple>
<delay type="number">0</delay>
</_>
<_ type="object">
<id>items</id>
<type>SelectorElement</type>
<parentSelectors type="array">
<_>categories</_>
</parentSelectors>
<selector>div.product__inner</selector>
<multiple type="boolean">true</multiple>
<delay type="number">0</delay>
</_>
<_ type="object">
<id>productbody</id>
<type>SelectorElement</type>
<parentSelectors type="array">
<_>items</_>
</parentSelectors>
<selector>div.product__body</selector>
<multiple type="boolean">true</multiple>
<delay type="number">0</delay>
</_>
<_ type="object">
<id>image</id>
<type>SelectorImage</type>
<parentSelectors type="array">
<_>productbody</_>
</parentSelectors>
<selector>a.product__image</selector>
<multiple type="boolean">false</multiple>
<delay type="number">0</delay>
</_>
<_ type="object">
<id>productname</id>
<type>SelectorText</type>
<parentSelectors type="array">
<_>productbody</_>
</parentSelectors>
<selector>div.product__name</selector>
<multiple type="boolean">false</multiple>
<regex/>
<delay type="number">0</delay>
</_>
<_ type="object">
<id>productdescription</id>
<type>SelectorText</type>
<parentSelectors type="array">
<_>productbody</_>
</parentSelectors>
<selector>div.product__description</selector>
<multiple type="boolean">false</multiple>
<regex/>
<delay type="number">0</delay>
</_>
<_ type="object">
<id>productweight</id>
<type>SelectorText</type>
<parentSelectors type="array">
<_>productbody</_>
</parentSelectors>
<selector>div.product__weight</selector>
<multiple type="boolean">false</multiple>
<regex/>
<delay type="number">0</delay>
</_>
<_ type="object">
<id>prijs</id>
<type>SelectorText</type>
<parentSelectors type="array">
<_>productbody</_>
</parentSelectors>
<selector>div.product__price-piece</selector>
<multiple type="boolean">false</multiple>
<regex/>
<delay type="number">0</delay>
</_>
<_ type="object">
<id>eenheidsprijs</id>
<type>SelectorText</type>
<parentSelectors type="array">
<_>productbody</_>
</parentSelectors>
<selector>div.product__price-unit</selector>
<multiple type="boolean">false</multiple>
<regex/>
<delay type="number">0</delay>
</_>
<_ type="object">
<id>korting-aankoop-hoeveelheid</id>
<type>SelectorText</type>
<parentSelectors type="array">
<_>productbody</_>
</parentSelectors>
<selector>a.promotion__min-amount</selector>
<multiple type="boolean">false</multiple>
<regex/>
<delay type="number">0</delay>
</_>
</selectors>
</json>
Query executed in 270.99 ms.
>
thufir@dur:~/json$
thufir@dur:~/json$basex
BaseX 9.0.1[独立]
请尝试“帮助”以获取更多信息。
>
>名单
名称资源大小输入路径
-------------------------------------------------------------------------------
com.w3schools.books 1 6290https://www.w3schools.com/xml/books.xml
推特75 457900
w3school_数据15209https://www.w3schools.com/xml/note.xml
3个数据库。
>
>创建数据库foo
数据库“foo”创建于138.51毫秒。
>
>设置语法分析器json