R 无法识别XML内容_R_Xml_Xml Parsing

R 无法识别XML内容

r xml

R 无法识别XML内容,r,xml,xml-parsing,R,Xml,Xml Parsing,我正试图从加拿大航空公司的网站上提取一个XML文件，该文件包含来自其雷达系统的天气数据。包含XML文件的URL为我从一开始就被卡住了，我认为这就像使用XML包中的xmlParse函数读入URL一样简单 library(XML) url = "https://www.aircanada.com/content/dam/aircanada/portal/data/weather/AirCanada.xml" xmlParse(url) 但是，我得到以下错误：错误：XML内容似乎不是XML 它

我正试图从加拿大航空公司的网站上提取一个XML文件，该文件包含来自其雷达系统的天气数据。包含XML文件的URL为

我从一开始就被卡住了，我认为这就像使用XML包中的xmlParse函数读入URL一样简单

library(XML)

url = "https://www.aircanada.com/content/dam/aircanada/portal/data/weather/AirCanada.xml"
xmlParse(url)

但是，我得到以下错误：

错误：XML内容似乎不是XML

它显然是一个XML文件，所以我不知道为什么会出现这个错误。任何帮助/指导都将不胜感激。

检查此URL处的XML文件表明它包含一些无效字符。
这是

xsltproc

的错误日志：

encoding error : input conversion failed due to input error, bytes 0x8F 0x6E 0x65 0x73
encoding error : input conversion failed due to input error, bytes 0x8F 0x6E 0x65 0x73
I/O error : encoder error
AirCanada.xml:1059: parser error : AttValue: ' expected
AirCanada.xml:1059: parser error : attributes construct error
AirCanada.xml:1059: parser error : Couldn't find end of Start Tag SITE line 1059
AirCanada.xml:1059: parser error : Premature end of data in tag DATAFILE line 50
unable to parse AirCanada.xml

使用来自的解决方案清理

AirCanada.xml

文件可以使数据可用，但可能会有一些损失

iconv -f utf-8 -t utf-8 -c AirCanada.xml > AirCanadaSanitized.xml

然后，您可以使用XSLT处理器处理

AirCanadaSanitized.xml

。

检查此URL处的xml文件显示它包含一些无效字符。
这是

xsltproc

的错误日志：

encoding error : input conversion failed due to input error, bytes 0x8F 0x6E 0x65 0x73
encoding error : input conversion failed due to input error, bytes 0x8F 0x6E 0x65 0x73
I/O error : encoder error
AirCanada.xml:1059: parser error : AttValue: ' expected
AirCanada.xml:1059: parser error : attributes construct error
AirCanada.xml:1059: parser error : Couldn't find end of Start Tag SITE line 1059
AirCanada.xml:1059: parser error : Premature end of data in tag DATAFILE line 50
unable to parse AirCanada.xml

使用来自的解决方案清理

AirCanada.xml

文件可以使数据可用，但可能会有一些损失

iconv -f utf-8 -t utf-8 -c AirCanada.xml > AirCanadaSanitized.xml

然后，您可以使用XSLT处理器处理

AirCanadaSanitized.xml

。

。。。xmlParse不会从url检索信息。您要求它分析字符串“”，而不是页面。您必须添加一个参数

isURL=TRUE

“您不会通过任何自动、电子或技术设备访问或使用……网站，包括但不限于自动脚本、机器人、爬网、屏幕抓取器、网络”机器人“，…，spider，–，宏程序，或任何其他…执行相同或类似功能的程序、软件、系统、算法、方法或技术，以便，但不限于：“数据挖掘”；“刮屏”；数据处理；访问、提取、复制、分发、聚合或获取信息；…输入或存储信息；…或操纵或监控网站的任何部分或内容；“…xmlParse不会从url检索信息。您要求它解析字符串“”，而不是页面。您必须添加一个参数

isURL=TRUE

”。您将不会…通过任何…自动、电子或技术设备访问或使用…网站，包括但不限于自动脚本、机器人、爬网、屏幕刮板、web“机器人”、“蜘蛛”、“蜘蛛”、“宏程序”或任何其他……程序、软件、系统、算法、方法或技术……执行相同或类似功能，以便，但不限于：“数据挖掘”、“屏幕抓取”"; 数据处理；访问、提取、复制、分发、聚合或获取信息；…输入或存储信息；…或操纵或监控网站的任何部分或内容；"