Web scraping 使用importHTML/XML和Google脚本很难抓取网页

Web scraping 使用importHTML/XML和Google脚本很难抓取网页,web-scraping,google-sheets,formulas,Web Scraping,Google Sheets,Formulas,我在使用谷歌脚本抓取特定网站时遇到问题。查看源代码,我可以看到结果是使用表构建的,但importHTML始终返回N/a错误:导入的内容为空 =IMPORTHTML("http://m.bbc.co.uk/sport/football/premier-league/results", "table", 1) 我在使用importXML时也没有任何运气 =IMPORTXML("http://www.bbc.co.uk/sport/football/premier-league/results",

我在使用谷歌脚本抓取特定网站时遇到问题。查看源代码,我可以看到结果是使用表构建的,但importHTML始终返回N/a错误:导入的内容为空

=IMPORTHTML("http://m.bbc.co.uk/sport/football/premier-league/results", "table", 1)
我在使用importXML时也没有任何运气

=IMPORTXML("http://www.bbc.co.uk/sport/football/premier-league/results", "//*[@id="blq-content"]/div[2]")

任何建议都将不胜感激

页面上的代码在任何在线xml查看器上都是不正确的xmltry解析。我使用了在写这个答案的时候显示了5个错误。因此XPath不能与importXML一起使用。此外,importHTML无法处理格式不正确的XML。

请尝试以下操作:

=substitute(regexextract(regexreplace(importxml("http://www.bbc.co.uk/sport/football/premier-league/results","//html"),"\n",","),".*(Premier League Results .*)"),",",char(10))
我所做的是通过importxml导入html,这是唯一一个实际返回数据的元素,然后我用统计数据替换了页面上的所有垃圾

我还需要替换回车符和新行来获取所有数据,所以我将其压缩在一起,然后将我自己的回车符添加回它们的位置