Web scraping 使用importHTML/XML和Google脚本很难抓取网页_Web Scraping_Google Sheets_Formulas

Web scraping 使用importHTML/XML和Google脚本很难抓取网页

web-scraping google-sheets

Web scraping 使用importHTML/XML和Google脚本很难抓取网页,web-scraping,google-sheets,formulas,Web Scraping,Google Sheets,Formulas,我在使用谷歌脚本抓取特定网站时遇到问题。查看源代码，我可以看到结果是使用表构建的，但importHTML始终返回N/a错误：导入的内容为空 =IMPORTHTML("http://m.bbc.co.uk/sport/football/premier-league/results", "table", 1) 我在使用importXML时也没有任何运气 =IMPORTXML("http://www.bbc.co.uk/sport/football/premier-league/results",

我在使用谷歌脚本抓取特定网站时遇到问题。查看源代码，我可以看到结果是使用表构建的，但importHTML始终返回N/a错误：导入的内容为空

=IMPORTHTML("http://m.bbc.co.uk/sport/football/premier-league/results", "table", 1)

我在使用importXML时也没有任何运气

=IMPORTXML("http://www.bbc.co.uk/sport/football/premier-league/results", "//*[@id="blq-content"]/div[2]")

任何建议都将不胜感激

页面上的代码在任何在线xml查看器上都是不正确的xmltry解析。我使用了在写这个答案的时候显示了5个错误。因此XPath不能与importXML一起使用。此外，importHTML无法处理格式不正确的XML。

请尝试以下操作：

=substitute(regexextract(regexreplace(importxml("http://www.bbc.co.uk/sport/football/premier-league/results","//html"),"\n",","),".*(Premier League Results .*)"),",",char(10))

我所做的是通过importxml导入html，这是唯一一个实际返回数据的元素，然后我用统计数据替换了页面上的所有垃圾

我还需要替换回车符和新行来获取所有数据，所以我将其压缩在一起，然后将我自己的回车符添加回它们的位置