Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-apps-script/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
从Sigma Aldrich将XML数据导入Google工作表_Xml_Google Apps Script_Google Sheets_Import_Google Sheets Formula - Fatal编程技术网

从Sigma Aldrich将XML数据导入Google工作表

从Sigma Aldrich将XML数据导入Google工作表,xml,google-apps-script,google-sheets,import,google-sheets-formula,Xml,Google Apps Script,Google Sheets,Import,Google Sheets Formula,我正在尝试创建一个GoogleSheets文档,它使用Sigma Aldrich中的产品编号,并从产品中复制某些信息。当我尝试使用google sheets中内置的importxml工具时,我收到一条错误消息,上面写着“无法获取URL”。XPath元素和url的一个示例是=importxml(“https://www.sigmaaldrich.com/catalog/product/aldrich/364525“,”/h1”)。我还尝试了一个网页刮板,如图所示:使用Cheerio,但在sigma

我正在尝试创建一个GoogleSheets文档,它使用Sigma Aldrich中的产品编号,并从产品中复制某些信息。当我尝试使用google sheets中内置的importxml工具时,我收到一条错误消息,上面写着“无法获取URL”。XPath元素和url的一个示例是=importxml(“https://www.sigmaaldrich.com/catalog/product/aldrich/364525“,”/h1”)。我还尝试了一个网页刮板,如图所示:使用Cheerio,但在sigmaaldrich.com上无法使用


importfromweb加载项工作正常,但有每月的限制。你能就我如何解决这个问题提出一些建议吗?

我认为这与谷歌的政治有关,因为该网站显示了网络爬行

它将查看目标站点是否允许对其页面进行爬网,因此它将检查站点的robots.txt()页面,查看它可以和不能获取哪些内容

如果您自己检查,它不允许搜索引擎访问大量文件夹,因此即使其中没有
/catalog/product
,它也可能在其中一个页面上指示不允许web刮取

你可以找一个为你做这项工作的刮板,或者你可以建立自己的,但是,我认为使用google sheets,你不会尝试从你的目标站点获取信息

解决方案

  • 如果你对python有一点了解,可以寻找BeautifulSoup或selenium来构建网络爬虫

你所说的“跟随网站的网页爬行指示与谷歌的政治有关系”是什么意思?我的意思是,用户试图获取的URL位于robots.txt中,因此不会被获取,或者网站所有者设置了某种类型的防火墙,禁止来自谷歌表单的流量获取他们的URL。google sheets robots的另一个线程在这里:有关robots.txt本身的更多信息,您可以在这里看到:来自google的更多信息