如何使用XML和ReadHTMLTable刮取多个页面？_Xml_R_Web Scraping - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/xml/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用XML和ReadHTMLTable刮取多个页面？_Xml_R_Web Scraping - Fatal编程技术网

如何使用XML和ReadHTMLTable刮取多个页面？

xml r web-scraping

如何使用XML和ReadHTMLTable刮取多个页面？,xml,r,web-scraping,Xml,R,Web Scraping,我正在使用XML包将芝加哥马拉松比赛的结果刮到CSV中。问题是，该网站在一个页面上只能显示1000名跑步者，因此我不得不抓取多个页面。到目前为止，我编写的脚本适用于第一页： rm(list=ls()) library(XML) page_numbers <- 1:1429 urls <- paste( "http://results.public.chicagomarathon.com/2011/index.php?page", page_numbers, sep = "="

我正在使用XML包将芝加哥马拉松比赛的结果刮到CSV中。问题是，该网站在一个页面上只能显示1000名跑步者，因此我不得不抓取多个页面。到目前为止，我编写的脚本适用于第一页：

rm(list=ls())

library(XML)

page_numbers <- 1:1429
urls <- paste(
"http://results.public.chicagomarathon.com/2011/index.php?page", 
page_numbers, 
sep = "="
)

tables <-(for i in page_numbers){
readHTMLTable(urls)
}
n.rows <- unlist(lapply(tables, function(t) dim(t)[1]))

times <- tables[[which.max(n.rows)]]

rm（list=ls（））
库（XML）
页码将页码添加到每个URL
page_numbers <- 1:1429
urls <- paste(
  "http://results.public.chicagomarathon.com/2011/index.php?pid=list&page", 
  page_numbers, 
  sep = "="
)

页码这里有一个有效的方法。您的方法失败的原因是您没有描述整个网页。稍加修改，可以为每个页面提供正确的url格式，之后一切都会就绪
url1 = 'http://results.public.chicagomarathon.com/2011/index.php?page='
url3 = '&content=list&event=MAR&num_results=25'

# GET TABLE FROM PAGE NUMBER
getPage <- function(page){
  require(XML)
  url = paste(url1, page, url3, sep = "")
  tab = readHTMLTable(url, stringsAsFactors = FALSE)[[1]]
  return(tab)
}

require(plyr)
# for some reason ldply fails, hence the llply + rbind workaround
pages    = llply(1:10, getPage, .progress = 'text') 
marathon = do.call('rbind', pages)

url1=表[[which.max（n.rows）]中的错误：尝试选择少于一个元素




[r]相关文章推荐



                                                        
R ggplot无法对条进行分组
r 
如何在不使用for循环的情况下限制R数据表中的条目数
rdataframe 
坡度，截距，ggplot2，R
r 
使用helpExtract函数获取R函数的帮助
r 
在另一个函数中使用dplyr函数
r 
R：写一个输入向量的函数
r 
如何重新组合data.frame列表并将其作为“csv”导出到独特的文件夹中？
rcsvdataframe 
闪亮的传单：在Firefox中使用搜索插件时，应用程序初始化时不会绘制点
rshinyleaflet 
dplyr:：在短而宽的数据帧上选择非常慢
rperformance 
R 如何通过模糊字符串变量查找唯一标识符
r 
R 为什么我的数字矩阵被转换成字符矩阵？
rdataframe 
R ggplot直方图-如何在不创建单独密度的情况下添加多种颜色
r 
在R中选择n次固定数量的行
rloops 
R封装中的下标越界错误
r 
在R中调用动态变量
rdynamic 
错误：调整参数网格应包含mtry、SVM回归列
r 
R列表/数据帧到JSON对象数组
rjson 
在R中将因子转换为数字后丢失信息
r 
尝试将数据写入newick格式R
rtree 
R函数类似于distanceFromPoints（），但用于最小成本距离
r 
                                       





随机文章推荐



                                                        
Internet explorer 8 Stickman Lightwindow&；youtube：打破IE8
internet-explorer-8youtube 
Internet explorer 8 IE8浏览器模式与文档模式
internet-explorer-8 
Internet explorer 8 IE 8文档模式-优点和缺点<；meta http equiv="；“x-ua-compatible”；内容=”；IE=8“&燃气轮机；
internet-explorer-8 
Internet explorer 8 为什么IE8说页面默认为怪癖模式？
internet-explorer-8 
Internet explorer 8 在</ul>；在IE7和IE8中添加标签。IE9，FF，铬都可以
internet-explorer-8 
Internet explorer 8 Tridion预览和HTML5元素
internet-explorer-8tridion 
Internet explorer 8 超大尺寸+；又是ie8/7
internet-explorer-8 
Internet explorer 8 CSS3111在IE8中嵌入字体时出错
internet-explorer-8 
Internet explorer 8 IE8的淘汰赛，Stringify的偶尔问题？
internet-explorer-8knockout.js 
Internet explorer 8 使用popcorn.js在IE8中播放vimeo
internet-explorer-8 
Internet explorer 8 背景图像赢得'；在IE8中无法显示
internet-explorer-8 
Internet explorer 8 加载html页面时，自动将浏览器模式设置为IE 8
internet-explorer-8 
Internet explorer 8 DW6流体网格布局IE8及以下连接移动版
internet-explorer-8responsive-design


                                        

                                        
                                        


                                                
                                                        [xml]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Biztalk
Microservices
Jestjs
Jboss
Fluent Nhibernate
Ibm Mq
Requirejs
Charts
Stream
Silverlight 4.0
Apache Kafka
Ruby
Netsuite
Date
Redis
Protocol Buffers
Pascal
Cryptography
Java 8
Vector
Map
Keyboard
Macos
Stanford Nlp
Ftp
Stm32
Gcc
Lucene
Eclipse Plugin
Actions On Google
Polymer
Cmake
Reference
Socket.io
Blockchain
Yii2
Cassandra
Drupal
String
Ios4
Stripe Payments
Scikit Learn
Junit
Service
Opengl
Vbscript
Xcode
Certificate
Jquery Mobile
Windbg
Hash
If Statement
Apache Flex
Hyperlink
Silverstripe
Facebook Graph Api
Jasper Reports
Project Management
Firefox Addon
Spring Boot
Datatables
Sharepoint 2013
Floating Point
Automation
Sapui5
Couchdb
Ldap
Joomla
Sharepoint 2010
Webview
Encoding
Codeigniter
Ckeditor
Loops
Configuration
Activemq
Redirect
Twilio
For Loop
Collections
Google Plus
Discord.py
Sonarqube
Julia
Menu
Shell
Algorithm
Python Sphinx
Automated Tests
Big O
Knockout.js
Transactions
Iis
Regex
Entity Framework 4
Random
Python 2.7
Jpa
Browser
Path
Ipad
Clearcase
Breeze
Design Patterns
Highcharts
Windows Phone 8.1
Leaflet
Common Lisp
Zurb Foundation
Push Notification
Scheme
Actionscript
Tinymce
Swing
Calendar
Puppet
Flash
Kubernetes
Sip
Azure Service Fabric
Arduino
Multithreading
Grafana
Django
Ravendb
Racket
Wso2
Layout
Arm
Ant
Wicket
Nunit
Domain Driven Design
Asterisk
Delphi
Compression
Oop
Zend Framework2
Coding Style
Asp.net Web Api
Tsql
Jquery Plugins
Groovy
Editor
Azure
Interface
Uml
Com
Select
Javafx
Web Applications
Syntax
Identityserver4
Directx
Asp.net Mvc
Apache Storm
Appium
Angular Material
Bazel
Oracle10g
Ms Word
Applescript
Jenkins
Php
Material Ui
Iframe
Networking
Nosql
Terminal
Npm
Api
Llvm
Rust
Jwt
Sencha Touch 2
Apache Flink
Vim
Documentation
Airflow
Cocoa
Markdown
Instagram
Dynamic
Rx Java
Omnet++
Asp Classic
Outlook
Asp.net Core
Ansible
Mule
Twitter Bootstrap 3
Selenium Webdriver
Qml
Amazon Web Services
Meteor
Smtp
Microsoft Graph Api
Tree
Itext
Safari
Visual Studio 2012


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网