Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/79.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在R中解析xml最简单的方法是什么?_R_Xml - Fatal编程技术网

在R中解析xml最简单的方法是什么?

在R中解析xml最简单的方法是什么?,r,xml,R,Xml,如何使用R从xml中提取数据并将其转换为R数据帧 我从来没有在R中使用过xml,所以如果我没有代码来构建,请原谅 奇怪的是,这个页面实际上是html,尽管被标记为xml 您可以使用rvest软件包读取数据,该软件包在引擎盖下使用XML软件包xml2: 库(rvest) #>正在加载所需的包:xml2 url 1第1列第2列第3列第4列第5列 #>2个值SHR或 #>3发行人名称CUSIP类所有权(x$1000)PRN金额 #>4 AAR公司通信公司000361105 317 7030 #>5雅

如何使用R从xml中提取数据并将其转换为R数据帧


我从来没有在R中使用过xml,所以如果我没有代码来构建,请原谅

奇怪的是,这个页面实际上是html,尽管被标记为xml

您可以使用
rvest
软件包读取数据,该软件包在引擎盖下使用XML软件包
xml2

库(rvest)
#>正在加载所需的包:xml2
url 1第1列第2列第3列第4列第5列
#>2个值SHR或
#>3发行人名称CUSIP类所有权(x$1000)PRN金额
#>4 AAR公司通信公司000361105 317 7030
#>5雅培实验室有限公司002824100 5986 68920
#>6 ABBVIE公司通讯00287Y109 26243 296401
#>7 ABIOMED公司通讯003654100 7112 41691
#>8 ACACIA通信公司COM 00401C108 4069 60013
#>9 ACHILLION PHARMACEUTICALS在COM 00448Q201 374 62079中
#>10 ACORDA治疗公司COM 00484M106 149 73082
#>11动视暴雪公司COM 00507V109 34034 572778
#>12 ACUSHNET控股公司COM 005098108 308 9472
#>13 ADDUS HOMECARE CORP.COM 006739106 2537 26094
#>14 ADIENT PLC ORD SHS G0084W101 931 43801
#>15 ADOBE公司COM 00724F101 41050 124467
#>16 ADT公司COM 00090Q103 127 15981
#>17 ADVANCE AUTO PARTS INC.COM 00751Y106 3190 19917
#>18高级排水系统公司DEL COM 00790R104 408 10496
#
#
# ... 等

(v0.3.0)于2020年2月24日创建,奇怪的是,该页面实际上是html,尽管标记为xml

您可以使用
rvest
软件包读取数据,该软件包在引擎盖下使用XML软件包
xml2

库(rvest)
#>正在加载所需的包:xml2
url 1第1列第2列第3列第4列第5列
#>2个值SHR或
#>3发行人名称CUSIP类所有权(x$1000)PRN金额
#>4 AAR公司通信公司000361105 317 7030
#>5雅培实验室有限公司002824100 5986 68920
#>6 ABBVIE公司通讯00287Y109 26243 296401
#>7 ABIOMED公司通讯003654100 7112 41691
#>8 ACACIA通信公司COM 00401C108 4069 60013
#>9 ACHILLION PHARMACEUTICALS在COM 00448Q201 374 62079中
#>10 ACORDA治疗公司COM 00484M106 149 73082
#>11动视暴雪公司COM 00507V109 34034 572778
#>12 ACUSHNET控股公司COM 005098108 308 9472
#>13 ADDUS HOMECARE CORP.COM 006739106 2537 26094
#>14 ADIENT PLC ORD SHS G0084W101 931 43801
#>15 ADOBE公司COM 00724F101 41050 124467
#>16 ADT公司COM 00090Q103 127 15981
#>17 ADVANCE AUTO PARTS INC.COM 00751Y106 3190 19917
#>18高级排水系统公司DEL COM 00790R104 408 10496
#
#
# ... 等

由(v0.3.0)于2020年2月24日创建。

有两个软件包可以帮助您做到这一点:“xml2”和“XML”。我更喜欢xml2,但它们有一些不重叠的功能。有两个包可以帮助您做到这一点:“xml2”和“XML”。我更喜欢xml2,但它们有一些不重叠的功能。所以你可能两者都需要。这太棒了。我将阅读更多关于这方面的内容,但现在…您是如何获得xpath=“//table”并选择[4]”的?@Geet我使用xpath查找页面上的所有表(“//table”),并看到有4个表。我猜第四个是最大的一个,因为它在页面上的位置,有所有的数据。这太棒了。我将阅读更多关于这方面的内容,但现在…您是如何获得xpath=“//table”并选择[4]”的?@Geet我使用xpath查找页面上的所有表(“//table”),并看到有4个表。我猜第四个是包含所有数据的大的一个,因为它在页面上的位置。