从Sigma Aldrich将XML数据导入Google工作表_Xml_Google Apps Script_Google Sheets_Import_Google Sheets Formula

从Sigma Aldrich将XML数据导入Google工作表

xml google-apps-script google-sheets import

从Sigma Aldrich将XML数据导入Google工作表,xml,google-apps-script,google-sheets,import,google-sheets-formula,Xml,Google Apps Script,Google Sheets,Import,Google Sheets Formula,我正在尝试创建一个GoogleSheets文档，它使用Sigma Aldrich中的产品编号，并从产品中复制某些信息。当我尝试使用google sheets中内置的importxml工具时，我收到一条错误消息，上面写着“无法获取URL”。XPath元素和url的一个示例是=importxml（“https://www.sigmaaldrich.com/catalog/product/aldrich/364525“，”/h1”）。我还尝试了一个网页刮板，如图所示：使用Cheerio，但在sigma

我正在尝试创建一个GoogleSheets文档，它使用Sigma Aldrich中的产品编号，并从产品中复制某些信息。当我尝试使用google sheets中内置的importxml工具时，我收到一条错误消息，上面写着“无法获取URL”。XPath元素和url的一个示例是=importxml（“https://www.sigmaaldrich.com/catalog/product/aldrich/364525“，”/h1”）。我还尝试了一个网页刮板，如图所示：使用Cheerio，但在sigmaaldrich.com上无法使用

importfromweb加载项工作正常，但有每月的限制。你能就我如何解决这个问题提出一些建议吗？

我认为这与谷歌的政治有关，因为该网站显示了网络爬行

它将查看目标站点是否允许对其页面进行爬网，因此它将检查站点的robots.txt（）页面，查看它可以和不能获取哪些内容

如果您自己检查，它不允许搜索引擎访问大量文件夹，因此即使其中没有

/catalog/product

，它也可能在其中一个页面上指示不允许web刮取

你可以找一个为你做这项工作的刮板，或者你可以建立自己的，但是，我认为使用google sheets，你不会尝试从你的目标站点获取信息

解决方案：

如果你对python有一点了解，可以寻找BeautifulSoup或selenium来构建网络爬虫

你所说的“跟随网站的网页爬行指示与谷歌的政治有关系”是什么意思？我的意思是，用户试图获取的URL位于robots.txt中，因此不会被获取，或者网站所有者设置了某种类型的防火墙，禁止来自谷歌表单的流量获取他们的URL。google sheets robots的另一个线程在这里：有关robots.txt本身的更多信息，您可以在这里看到：来自google的更多信息