Web scraping Webscraping-数据提取-web浏览器google chrome扩展

Web scraping Webscraping-数据提取-web浏览器google chrome扩展,web-scraping,google-chrome-extension,screen-scraping,data-extraction,Web Scraping,Google Chrome Extension,Screen Scraping,Data Extraction,下午好 我试图从一家杂货店提取所有的产品(名称、价格、图片) 我正在使用网络刮刀(谷歌浏览器扩展)。 当我开始抓取时,我可以看到它正在运行,但是它不会返回任何数据。 当我点击数据预览时,我可以看到数据。然而,我一直收到消息没有数据刮 这是我创建的网站地图: {“id”:“collectandgo”,“startUrl”:[“”],“selectors”:[{“id”:“categories”,“type”:“SelectorLink”,“parentSelectors”:[“\U root”],

下午好

我试图从一家杂货店提取所有的产品(名称、价格、图片)

我正在使用网络刮刀(谷歌浏览器扩展)。 当我开始抓取时,我可以看到它正在运行,但是它不会返回任何数据。 当我点击数据预览时,我可以看到数据。然而,我一直收到消息没有数据刮

这是我创建的网站地图:
{“id”:“collectandgo”,“startUrl”:[“”],“selectors”:[{“id”:“categories”,“type”:“SelectorLink”,“parentSelectors”:[“\U root”],“selector”:“div#arbo.nav_uuBranch.branch”,“multiple”:true,“delay”:0},{“id”:“items”,“type”:“SelectorElement”,“ParentSelector”:“[“categories”,“selector”:“div.product\uuu内部”,“multiple”:true,“delay”:0},{“id”:“productbody”,“type”:”:“SelectorElement”、“parentSelectors”:[“items”],“selector”:“div.product\uu body”,“multiple”:true,“delay”:0},{“id”:“image”,“type”:“SelectorImage”,“parentSelectors”:[“productbody”],“selector”:“a.product\uu image”,“multiple”:false,“delay”:0},{“id”:“productname”,“type”:“SelectorText”,“parentSelector”:[“productbody”],“selector”:“div“:false,“regex”:“,”delay“:”0},{”id“:”productdescription“,”type“:”SelectorText“,”parentSelectors“:”[”productbody“,”selector“,”div.product\uu description“,”multiple“,”false“,”regex“,”delay“,”id“:”productweight“,”type“:”selector“:”selector“,”div.product\uu weight“,”multiple“,”false,“regex“,”delay“,”0},{”id:”“prijs”、“type”:“SelectorText”、“parentSelectors”:[“productbody”],“selector”:“div.product_uuprice-piece”、“multiple”:false,“regex”:“delay”:0},{“id”:“eenheidsprijs”、“type”:“SelectorText”、“parentSelectors”:[“productbody”],“selector”:“div.product_uprice-unit”、“multiple”:false,“regex”:“delay”:0},{“id”:“korting aankoop”Hoelhveeeid:“type”:SelectorText、“parentSelectors”:[“productbody”],“selector”:“a.promotion\u min-amount”,“multiple”:false,“regex”:“delay”:0}]}

我复制了你的
JSON
和它,然后将它复制到文件
stack.JSON
,然后在将解析器设置为
JSON
后将它加载到
BaseX
数据库
foo
,如下所示:

thufir@dur:~/json$ 
thufir@dur:~/json$ basex
BaseX 9.0.1 [Standalone]
Try 'help' to get more information.
> 
> list
Name                 Resources  Size    Input Path                               
-------------------------------------------------------------------------------
com.w3schools.books  1          6290    https://www.w3schools.com/xml/books.xml  
twitter              75         457900                                           
w3school_data        1          5209    https://www.w3schools.com/xml/note.xml   

3 database(s).
> 
> create database foo
Database 'foo' created in 138.51 ms.
> 
> set parser json
PARSER: json
> 
> add stack.json
Resource(s) added in 74.72 ms.
> 
> list
Name                 Resources  Size    Input Path                               
-------------------------------------------------------------------------------
com.w3schools.books  1          6290    https://www.w3schools.com/xml/books.xml  
foo                  1          5600                                             
twitter              75         457900                                           
w3school_data        1          5209    https://www.w3schools.com/xml/note.xml   

4 database(s).
> 
> open foo
Database 'foo' was opened in 0.04 ms.
> 
> xquery /
<json type="object">
  <__id>collectandgo</__id>
  <startUrl type="array">
    <_>https://colruyt.collectandgo.be/cogo/nl/home</_>
  </startUrl>
  <selectors type="array">
    <_ type="object">
      <id>categories</id>
      <type>SelectorLink</type>
      <parentSelectors type="array">
        <_>_root</_>
      </parentSelectors>
      <selector>div#arbo.nav__branch.branch</selector>
      <multiple type="boolean">true</multiple>
      <delay type="number">0</delay>
    </_>
    <_ type="object">
      <id>items</id>
      <type>SelectorElement</type>
      <parentSelectors type="array">
        <_>categories</_>
      </parentSelectors>
      <selector>div.product__inner</selector>
      <multiple type="boolean">true</multiple>
      <delay type="number">0</delay>
    </_>
    <_ type="object">
      <id>productbody</id>
      <type>SelectorElement</type>
      <parentSelectors type="array">
        <_>items</_>
      </parentSelectors>
      <selector>div.product__body</selector>
      <multiple type="boolean">true</multiple>
      <delay type="number">0</delay>
    </_>
    <_ type="object">
      <id>image</id>
      <type>SelectorImage</type>
      <parentSelectors type="array">
        <_>productbody</_>
      </parentSelectors>
      <selector>a.product__image</selector>
      <multiple type="boolean">false</multiple>
      <delay type="number">0</delay>
    </_>
    <_ type="object">
      <id>productname</id>
      <type>SelectorText</type>
      <parentSelectors type="array">
        <_>productbody</_>
      </parentSelectors>
      <selector>div.product__name</selector>
      <multiple type="boolean">false</multiple>
      <regex/>
      <delay type="number">0</delay>
    </_>
    <_ type="object">
      <id>productdescription</id>
      <type>SelectorText</type>
      <parentSelectors type="array">
        <_>productbody</_>
      </parentSelectors>
      <selector>div.product__description</selector>
      <multiple type="boolean">false</multiple>
      <regex/>
      <delay type="number">0</delay>
    </_>
    <_ type="object">
      <id>productweight</id>
      <type>SelectorText</type>
      <parentSelectors type="array">
        <_>productbody</_>
      </parentSelectors>
      <selector>div.product__weight</selector>
      <multiple type="boolean">false</multiple>
      <regex/>
      <delay type="number">0</delay>
    </_>
    <_ type="object">
      <id>prijs</id>
      <type>SelectorText</type>
      <parentSelectors type="array">
        <_>productbody</_>
      </parentSelectors>
      <selector>div.product__price-piece</selector>
      <multiple type="boolean">false</multiple>
      <regex/>
      <delay type="number">0</delay>
    </_>
    <_ type="object">
      <id>eenheidsprijs</id>
      <type>SelectorText</type>
      <parentSelectors type="array">
        <_>productbody</_>
      </parentSelectors>
      <selector>div.product__price-unit</selector>
      <multiple type="boolean">false</multiple>
      <regex/>
      <delay type="number">0</delay>
    </_>
    <_ type="object">
      <id>korting-aankoop-hoeveelheid</id>
      <type>SelectorText</type>
      <parentSelectors type="array">
        <_>productbody</_>
      </parentSelectors>
      <selector>a.promotion__min-amount</selector>
      <multiple type="boolean">false</multiple>
      <regex/>
      <delay type="number">0</delay>
    </_>
  </selectors>
</json>
Query executed in 270.99 ms.
> 
thufir@dur:~/json$
thufir@dur:~/json$basex
BaseX 9.0.1[独立]
请尝试“帮助”以获取更多信息。
> 
>名单
名称资源大小输入路径
-------------------------------------------------------------------------------
com.w3schools.books 16290https://www.w3schools.com/xml/books.xml  
推特75 457900
w3school_数据15209https://www.w3schools.com/xml/note.xml   
3个数据库。
> 
>创建数据库foo
数据库“foo”创建于138.51毫秒。
> 
>设置语法分析器json
解析器:json
> 
>添加stack.json
74.72 ms中添加的资源。
> 
>名单
名称资源大小输入路径
-------------------------------------------------------------------------------
com.w3schools.books 16290https://www.w3schools.com/xml/books.xml  
富1 5600
推特75 457900
w3school_数据15209https://www.w3schools.com/xml/note.xml   
4个数据库。
> 
>开福
数据库“foo”在0.04毫秒内打开。
> 
>xquery/
collectandgo
https://colruyt.collectandgo.be/cogo/nl/home
类别
选择器链接
_根
分队
真的
0
项目
选择元素
类别
内部产品分类
真的
0
产品体
选择元素
项目
产品部
真的
0
形象
选择器图像
产品体
a、 产品图片
假的
0
产品名称
选择文本
产品体
部门产品名称
假的
0
产品描述
选择文本
产品体
部门产品描述
假的
0
产品重量
选择文本
产品体
部门产品重量
假的
0
普里斯
选择文本
产品体
部门产品价格单
假的
0
伊恩海德斯普利斯酒店
选择文本
产品体
部门产品价格单位
假的
0
科廷·安库普·霍韦尔海德
选择文本
产品体
a、 促销最低金额
假的
0
查询以270.99毫秒执行。
> 
您希望对数据运行什么查询


您可能想查看
Selenium
或其他用于抓取数据的工具。
Selenium
BaseX
都使用
Xquery
并提供Java API。

我复制了您的
JSON
和它,然后将其复制到文件
stack.JSON
,然后将其加载到
BaseX
数据库
foo
将解析器设置为
JSON
后,如下所示:

thufir@dur:~/json$ 
thufir@dur:~/json$ basex
BaseX 9.0.1 [Standalone]
Try 'help' to get more information.
> 
> list
Name                 Resources  Size    Input Path                               
-------------------------------------------------------------------------------
com.w3schools.books  1          6290    https://www.w3schools.com/xml/books.xml  
twitter              75         457900                                           
w3school_data        1          5209    https://www.w3schools.com/xml/note.xml   

3 database(s).
> 
> create database foo
Database 'foo' created in 138.51 ms.
> 
> set parser json
PARSER: json
> 
> add stack.json
Resource(s) added in 74.72 ms.
> 
> list
Name                 Resources  Size    Input Path                               
-------------------------------------------------------------------------------
com.w3schools.books  1          6290    https://www.w3schools.com/xml/books.xml  
foo                  1          5600                                             
twitter              75         457900                                           
w3school_data        1          5209    https://www.w3schools.com/xml/note.xml   

4 database(s).
> 
> open foo
Database 'foo' was opened in 0.04 ms.
> 
> xquery /
<json type="object">
  <__id>collectandgo</__id>
  <startUrl type="array">
    <_>https://colruyt.collectandgo.be/cogo/nl/home</_>
  </startUrl>
  <selectors type="array">
    <_ type="object">
      <id>categories</id>
      <type>SelectorLink</type>
      <parentSelectors type="array">
        <_>_root</_>
      </parentSelectors>
      <selector>div#arbo.nav__branch.branch</selector>
      <multiple type="boolean">true</multiple>
      <delay type="number">0</delay>
    </_>
    <_ type="object">
      <id>items</id>
      <type>SelectorElement</type>
      <parentSelectors type="array">
        <_>categories</_>
      </parentSelectors>
      <selector>div.product__inner</selector>
      <multiple type="boolean">true</multiple>
      <delay type="number">0</delay>
    </_>
    <_ type="object">
      <id>productbody</id>
      <type>SelectorElement</type>
      <parentSelectors type="array">
        <_>items</_>
      </parentSelectors>
      <selector>div.product__body</selector>
      <multiple type="boolean">true</multiple>
      <delay type="number">0</delay>
    </_>
    <_ type="object">
      <id>image</id>
      <type>SelectorImage</type>
      <parentSelectors type="array">
        <_>productbody</_>
      </parentSelectors>
      <selector>a.product__image</selector>
      <multiple type="boolean">false</multiple>
      <delay type="number">0</delay>
    </_>
    <_ type="object">
      <id>productname</id>
      <type>SelectorText</type>
      <parentSelectors type="array">
        <_>productbody</_>
      </parentSelectors>
      <selector>div.product__name</selector>
      <multiple type="boolean">false</multiple>
      <regex/>
      <delay type="number">0</delay>
    </_>
    <_ type="object">
      <id>productdescription</id>
      <type>SelectorText</type>
      <parentSelectors type="array">
        <_>productbody</_>
      </parentSelectors>
      <selector>div.product__description</selector>
      <multiple type="boolean">false</multiple>
      <regex/>
      <delay type="number">0</delay>
    </_>
    <_ type="object">
      <id>productweight</id>
      <type>SelectorText</type>
      <parentSelectors type="array">
        <_>productbody</_>
      </parentSelectors>
      <selector>div.product__weight</selector>
      <multiple type="boolean">false</multiple>
      <regex/>
      <delay type="number">0</delay>
    </_>
    <_ type="object">
      <id>prijs</id>
      <type>SelectorText</type>
      <parentSelectors type="array">
        <_>productbody</_>
      </parentSelectors>
      <selector>div.product__price-piece</selector>
      <multiple type="boolean">false</multiple>
      <regex/>
      <delay type="number">0</delay>
    </_>
    <_ type="object">
      <id>eenheidsprijs</id>
      <type>SelectorText</type>
      <parentSelectors type="array">
        <_>productbody</_>
      </parentSelectors>
      <selector>div.product__price-unit</selector>
      <multiple type="boolean">false</multiple>
      <regex/>
      <delay type="number">0</delay>
    </_>
    <_ type="object">
      <id>korting-aankoop-hoeveelheid</id>
      <type>SelectorText</type>
      <parentSelectors type="array">
        <_>productbody</_>
      </parentSelectors>
      <selector>a.promotion__min-amount</selector>
      <multiple type="boolean">false</multiple>
      <regex/>
      <delay type="number">0</delay>
    </_>
  </selectors>
</json>
Query executed in 270.99 ms.
> 
thufir@dur:~/json$
thufir@dur:~/json$basex
BaseX 9.0.1[独立]
请尝试“帮助”以获取更多信息。
> 
>名单
名称资源大小输入路径
-------------------------------------------------------------------------------
com.w3schools.books 1 6290https://www.w3schools.com/xml/books.xml  
推特75 457900
w3school_数据15209https://www.w3schools.com/xml/note.xml   
3个数据库。
> 
>创建数据库foo
数据库“foo”创建于138.51毫秒。
> 
>设置语法分析器json