使用xpathSApply使用R进行网页抓取，并尝试仅获取带有“的链接”/概述“；_R_Web Scraping - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/71.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/design-patterns/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用xpathSApply使用R进行网页抓取，并尝试仅获取带有“的链接”/概述“；_R_Web Scraping - Fatal编程技术网

使用xpathSApply使用R进行网页抓取，并尝试仅获取带有“的链接”/概述“；

r web-scraping

使用xpathSApply使用R进行网页抓取，并尝试仅获取带有“的链接”/概述“；,r,web-scraping,R,Web Scraping,我正在为大学做一个项目，涉及到网页抓取。我正在尝试获取此网站（）中玩家档案的所有链接。我尝试用以下代码获取链接： library(XML) doc_parsed<-htmlTreeParse("ranking.html",useInternal =T) root<-xmlRoot(doc_parsed) hrefs1 = xpathSApply(root,fun=xmlGetAttr,"href",path='//a') 库（XML） doc_parsed要缩小到您想要的链接，您必

我正在为大学做一个项目，涉及到网页抓取。我正在尝试获取此网站（）中玩家档案的所有链接。我尝试用以下代码获取链接：

library(XML)
doc_parsed<-htmlTreeParse("ranking.html",useInternal =T)
root<-xmlRoot(doc_parsed)
hrefs1 = xpathSApply(root,fun=xmlGetAttr,"href",path='//a')

库（XML）
doc_parsed要缩小到您想要的链接，您必须在表达式中包含您所追求的元素所特有的属性。最好、最快的方法是使用ID（应该是唯一的）。下一个最佳方法是在具有特定类的元素下使用路径。例如：
hrefs1 <- xpathSApply(root,fun=xmlGetAttr, "href", path='//td[@class="player-cell"]/a')

hrefs1优化查询参数。听起来你得到的是所有的链接，而不是你想要的5000个。不知何故，您需要找出如何将链接排除在搜索集之外。请尝试hrefs1如果您的代码提取页面的所有链接，请尝试使用xpath表达式缩小到您真正想要的内容。提示：在文档结构中寻找唯一的类。@nicola OP要求使用XPath提供解决方案。非常感谢大家！它起作用了。我想我也可以将解决方案用于无列表。谢谢你的帮助，它起作用了。问题是这2252个链接不包括位置中有字母“t”的玩家。@AnnaB如果答案解决了你的问题，你能把它标记为正确答案吗？




[web scraping]相关文章推荐



                                                        
Web scraping iOpus iMacro网络垃圾循环
web-scraping 
Web scraping 如何在casperJs中设置输入标记的值
web-scrapingphantomjs 
Web scraping IMacros：从站点提取文本
web-scraping 
Web scraping web抓取与web抓取的区别
web-scrapingweb-crawler 
Web scraping 如何使用IP阻止来防止站点刮取？
web-scraping 
Web scraping 如何在swift中将html表格数据解析为字符串数组？
web-scraping 
Web scraping 如何使用Scrapy FormRequest在分页的.asp站点上模拟下一页链接请求
web-scrapingpaginationscrapy 
Web scraping 是否可以在网站上抓取脚本，并使用Puppeter跟踪它们加载的后续脚本
web-scrapingscriptingphantomjs 
Web scraping 大数字表示日期
web-scraping 
Web scraping 刮取一个松散的节点
web-scraping 
Web scraping Web Scrapy-如何循环浏览<；中的标题超链接；表格>；或<；表摘要>；标签
web-scrapingscrapy 
Web scraping 无法使用Scrapy修改中间件中的请求
web-scrapingscrapy 
Web scraping 使用beautifulsoup从iframe获取值
web-scraping 
Web scraping 网络垃圾视频流URL无法正常工作
web-scraping 
Web scraping 如何避免当前页面和下一页之间无休止的循环
web-scrapingscrapyweb-crawler 
Web scraping Scrapy返回0个项目和0个已爬网页面
web-scrapingscrapyweb-crawler 
Web scraping “自动化”；“加载更多”；按键
web-scraping 
                                       





随机文章推荐


                                        

                                        
                                        


                                                
                                                        [r]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Cloud Foundry
Visual Studio 2010
Pagination
.net 4.0
Gstreamer
Scala
.htaccess
Uiview
Gremlin
Playframework
Networking
Nativescript
Reference
Smalltalk
Kubernetes
Asynchronous
Facebook Graph Api
Sharepoint 2010
Tfs
Composer Php
Snmp
Installation
Gridview
Google Apps Script
Curl
Javascript
Calendar
Sails.js
Jvm
Llvm
Apache2
Visual C++
Deep Learning
Hibernate
Smtp
Jwt
Url
Process
Java 8
Ibm Cloud
Google Cloud Dataflow
Azure Devops
Mediawiki
Office365
Jsp
Asp.net Core
Grid
Spring Mvc
Bison
User Interface
Vim
Datetime
Keyboard
Android Ndk
Antlr4
Phantomjs
Usb
Data Binding
Log4net
Paypal
X86
Ecmascript 6
Appium
Outlook
Jqgrid
Openlayers 3
Image Processing
Import
Dart
Mapbox
Tableau Api
Liferay
Mdx
If Statement
Gps
Sqlite
Mysql
Dynamic
Maven 2
Applescript
Terraform
Razor
Swiftui
Binding
Julia
Itext
Windows 7
Apache Camel
Microsoft Graph Api
Exchange Server
Operating System
Azure Active Directory
Scroll
Swing
Windows Phone 8.1
Discord
Windows 8
Opencl
Sencha Touch 2
Oauth 2.0
Continuous Integration
Lambda
Internationalization
Google Cloud Platform
Web
Kentico
Wpf
Cloud
Phpstorm
Ember.js
Linq
Vb6
Passwords
Jenkins
Sublimetext3
Ssrs 2008
Localization
Cordova
Windows Phone
Gatsby
Module
Visual Studio 2012
Gruntjs
Angular Material
Ruby On Rails 3.1
Jquery Mobile
Github
Navigation
Lisp
Cors
Debian
Wolfram Mathematica
Actionscript
Xcode4
Scrapy
Sql Server
Sip
Timer
Mvvm
Iphone
Ignite
Facebook
Colors
Drools
Database Design
Opencv
Amazon Redshift
Redux
Gulp
Ruby
Opengl
Url Rewriting
Notifications
Debugging
Object
Express
Odata
Push Notification
Twitter
Shiny
Protractor
Arm
Shopify
Linker
Keras
Monitoring
Crystal Reports
Ibm Mq
Ftp
Svn
Azure Functions
Clojure
Aframe
Robotframework
Automated Tests
Docusignapi
Hadoop
Api
Plsql
Fluent Nhibernate
Graphql
Internet Explorer 8
Vector
Telegram
Typescript
Dynamics Crm
Speech Recognition
Winapi
Neo4j
Wcf
Tinymce
Laravel 4
Optimization
Antlr
Bootstrap 4
System Verilog
Sql Server 2008 R2
Spring Security
Seo
Emacs
Parsing


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网