从Sigma Aldrich将XML数据导入Google工作表
我正在尝试创建一个GoogleSheets文档,它使用Sigma Aldrich中的产品编号,并从产品中复制某些信息。当我尝试使用google sheets中内置的importxml工具时,我收到一条错误消息,上面写着“无法获取URL”。XPath元素和url的一个示例是=importxml(“https://www.sigmaaldrich.com/catalog/product/aldrich/364525“,”/h1”)。我还尝试了一个网页刮板,如图所示:使用Cheerio,但在sigmaaldrich.com上无法使用从Sigma Aldrich将XML数据导入Google工作表,xml,google-apps-script,google-sheets,import,google-sheets-formula,Xml,Google Apps Script,Google Sheets,Import,Google Sheets Formula,我正在尝试创建一个GoogleSheets文档,它使用Sigma Aldrich中的产品编号,并从产品中复制某些信息。当我尝试使用google sheets中内置的importxml工具时,我收到一条错误消息,上面写着“无法获取URL”。XPath元素和url的一个示例是=importxml(“https://www.sigmaaldrich.com/catalog/product/aldrich/364525“,”/h1”)。我还尝试了一个网页刮板,如图所示:使用Cheerio,但在sigma
importfromweb加载项工作正常,但有每月的限制。你能就我如何解决这个问题提出一些建议吗?我认为这与谷歌的政治有关,因为该网站显示了网络爬行 它将查看目标站点是否允许对其页面进行爬网,因此它将检查站点的robots.txt()页面,查看它可以和不能获取哪些内容 如果您自己检查,它不允许搜索引擎访问大量文件夹,因此即使其中没有
/catalog/product
,它也可能在其中一个页面上指示不允许web刮取
你可以找一个为你做这项工作的刮板,或者你可以建立自己的,但是,我认为使用google sheets,你不会尝试从你的目标站点获取信息
解决方案:
- 如果你对python有一点了解,可以寻找BeautifulSoup或selenium来构建网络爬虫