R 从HTML解析文档中提取信息
我不熟悉HTML和XML处理,对提取已解析HTML文档的某些部分有疑问。以下文档R 从HTML解析文档中提取信息,r,R,我不熟悉HTML和XML处理,对提取已解析HTML文档的某些部分有疑问。以下文档doc,是使用包XML中的htmlTreeParse生成的,可以使用以下代码进行复制 当访问href=“…”时,每行末尾的四位数字会发生什么变化?我需要提取这些数字,但它们似乎消失了 library(XML) doc <- htmlTreeParse("http://www.retrosheet.org/gamelogs/index", useInternalNodes
doc
,是使用包XML
中的htmlTreeParse
生成的,可以使用以下代码进行复制
当访问href=“…”
时,每行末尾的四位数字会发生什么变化?我需要提取这些数字,但它们似乎消失了
library(XML)
doc <- htmlTreeParse("http://www.retrosheet.org/gamelogs/index",
useInternalNodes = TRUE)
doc["//a/@href"][100:101]
# [[1]]
# href
# "http://www.retrosheet.org/gamelogs/gl1924.zip"
# attr(,"class")
# [1] "XMLAttributeValue"
#
# [[2]]
# href
# "http://www.retrosheet.org/gamelogs/gl1925.zip"
# attr(,"class")
# [1] "XMLAttributeValue"
下面是html文档的一个概览
...
<br/>
</b>
<pre>
<a href="http://www.retrosheet.org/gamelogs/gl1871.zip">1871</a>
<a href="http://www.retrosheet.org/gamelogs/gl1872.zip">1872</a>
... ....
... ....
<a href="http://www.retrosheet.org/gamelogs/gl2012.zip">2012</a>
<a href="http://www.retrosheet.org/gamelogs/gl2013.zip">2013</a>
</pre>
<a href="http://www.retrosheet.org/gamelogs/glws.zip">World Series</a>
<br/>
<a href="http://www.retrosheet.org/gamelogs/glas.zip">All-Star</a>
<br/>
。。。
... ....
... ....
如果希望使用值而不是href属性,请尝试以下操作之一:
如果您想要值而不是href属性,请尝试
doc[“//a/text()”][100:101]
或sappy(doc[“//a”][100:101],xmlValue,trim=TRUE)
。谢谢。很高兴我没有去grep
。你会提交答案吗?
...
<br/>
</b>
<pre>
<a href="http://www.retrosheet.org/gamelogs/gl1871.zip">1871</a>
<a href="http://www.retrosheet.org/gamelogs/gl1872.zip">1872</a>
... ....
... ....
<a href="http://www.retrosheet.org/gamelogs/gl2012.zip">2012</a>
<a href="http://www.retrosheet.org/gamelogs/gl2013.zip">2013</a>
</pre>
<a href="http://www.retrosheet.org/gamelogs/glws.zip">World Series</a>
<br/>
<a href="http://www.retrosheet.org/gamelogs/glas.zip">All-Star</a>
<br/>
doc["//a/text()"][100:101]
sapply(doc["//a"][100:101], xmlValue)
sapply(doc["//a"][100:101], xmlValue, trim = TRUE)