需要关于网页抓取、python中字符串匹配的帮助吗_Python_Web Scraping - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/318.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
需要关于网页抓取、python中字符串匹配的帮助吗_Python_Web Scraping - Fatal编程技术网

需要关于网页抓取、python中字符串匹配的帮助吗

python web-scraping

需要关于网页抓取、python中字符串匹配的帮助吗,python,web-scraping,Python,Web Scraping,我试图从网页中提取一些东西。首先，我使用BeautifulSoup提取了一个名为“scores”的div，其中包括几个类似这样的图像 <img class="sprite-rating_s_fill rating_s_fill s45" src="http://e2.tacdn.com/img2/x.gif" alt="4.5 of 5 stars"> 我想提取这张图中的分数，在这个例子中是“4.5”。所以我试着这样做： pattern = re.compile('<i

我试图从网页中提取一些东西。首先，我使用BeautifulSoup提取了一个名为“scores”的div，其中包括几个类似这样的图像

<img class="sprite-rating_s_fill rating_s_fill s45" src="http://e2.tacdn.com/img2/x.gif" alt="4.5 of 5 stars">

我想提取这张图中的分数，在这个例子中是“4.5”。所以我试着这样做：

pattern = re.compile('<img.*?alt="(.*?) of 5 stars">', re.S)
items = re.findall(pattern, scores)

pattern=re.compile（“”，re.S）
项目=关于findall（模式、分数）

但它不起作用。

我不熟悉网络抓取，有人能帮我吗？

BeautifulSoup实际上可以很容易地从这样的标签中提取信息！假设

scores

是一个BeautifulSoup

标记

对象（您可以阅读该对象），您要做的是从标记中提取

src

属性：

src = scores['src']

对于您刚才给出的示例，src应该是

u'4.5/5星'

。现在您只需去掉

“五颗星中的一颗星”

：

removeIndex = src.index(' out of 5 stars')
score = src[:removeIndex]

您将得到

分数为'4.5'
。（如果您想将其作为一个数字进行操作，您必须执行score=float（score）
这项操作，非常感谢。请您也给出一些关于匹配字符串的方法的建议，好吗？我仍然想弄清楚为什么它是错误的




[web scraping]相关文章推荐



                                                        
Web scraping 下载旧RSS内容
web-scrapingrssweb-crawler 
Web scraping 如何在Phantomjs中获得多个链接并遵循这些链接？
web-scrapingphantomjs 
Web scraping Scrapy统计爬网页面数和页面数/分钟
web-scrapingscrapy 
Web scraping PhantomJs onResourceReceived URL解码问题
web-scrapingphantomjs 
Web scraping InvalidArgumentException-当前节点列表为空。
web-scraping 
Web scraping 刮纸台和罐'；我找不到那张桌子
web-scraping 
Web scraping 为什么《靓汤》只是我第一次进入网站？
web-scraping 
Web scraping 谷歌查询语言：如何选择最小值？
web-scrapinggoogle-sheets 
Web scraping 在Nixos上使用systemd计时器运行脚本
web-scrapingtimer 
                                       





随机文章推荐



                                                        
使用不同的module.js moodle
moodle 
为什么不显示Moodle主题？
moodle 
Moodle 2.6 mailer工作不正常
moodle 
Moodle:数据库连接失败。数据库可能过载或运行不正常
moodle 
Moodle角色权限'；mod/证书：管理'；它提供什么能力？
moodle


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Build
Google Plus
Nlp
Exception
Moodle
Networking
Iis 7
Jaxb
Internet Explorer
Memory
EmptyTag
Webgl
Jupyter Notebook
Telegram
Proxy
C# 3.0
Swiftui
Canvas
Pentaho
Xmpp
Sharepoint 2007
View
Neo4j
Merge
Karate
Facebook Graph Api
Vector
Streaming
Docker Compose
Text
Stripe Payments
Aurelia
Button
Class
Compiler Construction
Jhipster
Cygwin
Gis
Kdb
Sequelize.js
Boost
Windows Installer
Scripting
Version Control
Mule
Mapreduce
Cypress
Objective C
Formatting
Plugins
Camera
Sql Server 2012
Openstack
Ibm Mobilefirst
Email
Wicket
Google Colaboratory
Sbt
Scikit Learn
Templates
Swift
Ip
Swagger
Cobol
Netty
Hive
Gnuplot
Uiview
Https
Passwords
Kendo Ui
Google Cloud Platform
Asp.net Web Api
Powerbi
Centos
Dynamics Crm
Combobox
Rxjs
Rabbitmq
Network Programming
Browser
Command Line
Elixir
Kibana
Yaml
Ant
Coq
Recursion
Subsonic
Pagination
Arm
Office365
Graph
Liferay
Julia
Stanford Nlp
Spring Batch
Blazor
Encryption
Matplotlib
C++ Cli
Fonts
Dask
Phpmyadmin
Oracle10g
Biztalk
Twitter Bootstrap 3
Raspberry Pi
Playframework
Sed
Inno Setup
Google Calendar Api
Sockets
Listview
File Upload
Cron
Hibernate
Mod Rewrite
D3.js
Eclipse Rcp
Cluster Computing
Ruby
Windows Store Apps
Printing
Vim
Pandas
Mapping
Asp Classic
Latex
Windows Mobile
Database Design
Pyspark
Assembly
Regex
Coding Style
Tags
Ansible
Asp.net Mvc 4
Tkinter
Aws Lambda
Uitableview
Solr
Mono
Couchbase
Google Maps
Hazelcast
Stream
Codeigniter
Automation
Ide
Google Sheets
Indexing
Abap
Shell
Database
Snowflake Cloud Data Platform
Robotframework
Opencl
Amazon S3
Google Maps Api 3
Firefox
Ssrs 2008
Events
Wpf
Youtube
Drupal
Cloud
Visual Studio 2015
Typescript
Gremlin
Asp.net Mvc 5
Extjs
Processing
Loops
Ember.js
Omnet++
Ibm Cloud
Kernel
Grid
Clang
Docker
Safari
Ssl
Haskell
Mongodb
List
Protractor
Parsing
Google Api
Twig
Variables
Dll
Go
Google Chrome
Amazon Dynamodb
Machine Learning
Date
Drop Down Menu
Debian
Bash
Cmd


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网