R 无法识别XML内容

R 无法识别XML内容,r,xml,xml-parsing,R,Xml,Xml Parsing,我正试图从加拿大航空公司的网站上提取一个XML文件,该文件包含来自其雷达系统的天气数据。包含XML文件的URL为 我从一开始就被卡住了,我认为这就像使用XML包中的xmlParse函数读入URL一样简单 library(XML) url = "https://www.aircanada.com/content/dam/aircanada/portal/data/weather/AirCanada.xml" xmlParse(url) 但是,我得到以下错误: 错误:XML内容似乎不是XML 它

我正试图从加拿大航空公司的网站上提取一个XML文件,该文件包含来自其雷达系统的天气数据。包含XML文件的URL为

我从一开始就被卡住了,我认为这就像使用XML包中的xmlParse函数读入URL一样简单

library(XML)

url = "https://www.aircanada.com/content/dam/aircanada/portal/data/weather/AirCanada.xml"
xmlParse(url)
但是,我得到以下错误:

错误:XML内容似乎不是XML


它显然是一个XML文件,所以我不知道为什么会出现这个错误。任何帮助/指导都将不胜感激。

检查此URL处的XML文件表明它包含一些无效字符。
这是
xsltproc
的错误日志:

encoding error : input conversion failed due to input error, bytes 0x8F 0x6E 0x65 0x73
encoding error : input conversion failed due to input error, bytes 0x8F 0x6E 0x65 0x73
I/O error : encoder error
AirCanada.xml:1059: parser error : AttValue: ' expected
AirCanada.xml:1059: parser error : attributes construct error
AirCanada.xml:1059: parser error : Couldn't find end of Start Tag SITE line 1059
AirCanada.xml:1059: parser error : Premature end of data in tag DATAFILE line 50
unable to parse AirCanada.xml
使用来自的解决方案清理
AirCanada.xml
文件可以使数据可用,但可能会有一些损失

iconv -f utf-8 -t utf-8 -c AirCanada.xml > AirCanadaSanitized.xml

然后,您可以使用XSLT处理器处理
AirCanadaSanitized.xml

检查此URL处的xml文件显示它包含一些无效字符。
这是
xsltproc
的错误日志:

encoding error : input conversion failed due to input error, bytes 0x8F 0x6E 0x65 0x73
encoding error : input conversion failed due to input error, bytes 0x8F 0x6E 0x65 0x73
I/O error : encoder error
AirCanada.xml:1059: parser error : AttValue: ' expected
AirCanada.xml:1059: parser error : attributes construct error
AirCanada.xml:1059: parser error : Couldn't find end of Start Tag SITE line 1059
AirCanada.xml:1059: parser error : Premature end of data in tag DATAFILE line 50
unable to parse AirCanada.xml
使用来自的解决方案清理
AirCanada.xml
文件可以使数据可用,但可能会有一些损失

iconv -f utf-8 -t utf-8 -c AirCanada.xml > AirCanadaSanitized.xml

然后,您可以使用XSLT处理器处理
AirCanadaSanitized.xml

。。。xmlParse不会从url检索信息。您要求它分析字符串“”,而不是页面。您必须添加一个参数
isURL=TRUE
“您不会通过任何自动、电子或技术设备访问或使用……网站,包括但不限于自动脚本、机器人、爬网、屏幕抓取器、网络”机器人“,…,spider,–,宏程序,或任何其他…执行相同或类似功能的程序、软件、系统、算法、方法或技术,以便,但不限于:“数据挖掘”;“刮屏”;数据处理;访问、提取、复制、分发、聚合或获取信息;…输入或存储信息;…或操纵或监控网站的任何部分或内容;“…xmlParse不会从url检索信息。您要求它解析字符串“”,而不是页面。您必须添加一个参数
isURL=TRUE
”。您将不会…通过任何…自动、电子或技术设备访问或使用…网站,包括但不限于自动脚本、机器人、爬网、屏幕刮板、web“机器人”、“蜘蛛”、“蜘蛛”、“宏程序”或任何其他……程序、软件、系统、算法、方法或技术……执行相同或类似功能,以便,但不限于:“数据挖掘”、“屏幕抓取”"; 数据处理;访问、提取、复制、分发、聚合或获取信息;…输入或存储信息;…或操纵或监控网站的任何部分或内容;"