Web scraping 将输出与导入XML混淆&;进口

Web scraping 将输出与导入XML混淆&;进口,web-scraping,google-sheets,google-sheets-formula,Web Scraping,Google Sheets,Google Sheets Formula,我刚开始使用GoogleSheet进行web scrape,希望能澄清以下问题 以下是有助于说明问题的屏幕截图: 使用的公式 A28 =IMPORTXML("https://www.thehuboug.com/collections/all?limit=100&sort=price+asc","//div[@class='grid__item small--one-half medium--one-half large--one-quarter']

我刚开始使用GoogleSheet进行web scrape,希望能澄清以下问题

以下是有助于说明问题的屏幕截图

使用的公式

    A28 =IMPORTXML("https://www.thehuboug.com/collections/all?limit=100&sort=price+asc","//div[@class='grid__item small--one-half medium--one-half large--one-quarter']/a/@href")
    B28 =CONCATENATE("https://www.thehuboug.com",A28)
    C28 =IMPORTXML(B28,"//div[@class='grid__item large--one-half']/h1")
    D28 =TRANSPOSE(INDEX(IMPORTHTML(B28,"table"),,2)) 
问题

  • 我不明白为什么C28无法获取数据,但C29在获取数据方面没有问题
  • D28能够获取数据,但不能用于D29:D33
  • 当我更改https->http时,我能够获取D34的数据,而不是C34的数据。这是什么意思
  • 最初,当我第一次输入公式时,所有内容都会相应地提取出来。然而,第二天当我再次打开文件时,我开始得到这样的结果,url上的错误资源没有找到。如果我把同样的公式复制到一张新的纸上,一切都会相应地重新工作。总的来说,我对这里的行为感到非常困惑,我想了解可以改进什么来解决这个问题

    提前感谢您在这方面对我的帮助

    A28:

    =IMPORTXML(
     "https://www.thehuboug.com/collections/all?limit=100&sort=price+asc",
     "//div[@class='grid__item small--one-half medium--one-half large--one-quarter']/a/@href")
    
    B28:

    C28并向下拖动:

    =IMPORTXML(B28, "//div[@class='grid__item large--one-half']/h1")
    
    =IFERROR(TRANSPOSE(INDEX(IMPORTHTML(B28, "table"),,2)))
    
    D28并向下拖动:

    =IMPORTXML(B28, "//div[@class='grid__item large--one-half']/h1")
    
    =IFERROR(TRANSPOSE(INDEX(IMPORTHTML(B28, "table"),,2)))
    

    为了确保我有正确的理解,您能帮我解释一下更改吗?@user2832451
    /collections/all
    需要从URL中排除谢谢!最后一个问题,您如何确定原因是什么?我点击了生成的链接并注意到url被重定向(更正),例如,它不包含
    集合/all