Python数据抓取差异-百万与百万_Python_Pandas_Csv_Web Scraping_Python Requests - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/365.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python数据抓取差异-百万与百万_Python_Pandas_Csv_Web Scraping_Python Requests - Fatal编程技术网

Python数据抓取差异-百万与百万

python pandas csv web-scraping

Python数据抓取差异-百万与百万,python,pandas,csv,web-scraping,python-requests,Python,Pandas,Csv,Web Scraping,Python Requests,我目前正在互联网上抓取一些表格，其中数字以不同的数字格式发布： Animal - Left in Wild Tigers - 18 Deer - 18m Pigs - 180000 我已设法将m从数字中去掉，但我想知道是否/如何使用if语句进行一些操作，以确保我准确记录数字： if animal.strip("m") == animal.strip("m"): left_in_wild = left_in_wild * 1000000 很明显，这段代码不起作用，但这是一个粗略的想法，

我目前正在互联网上抓取一些表格，其中数字以不同的数字格式发布：

Animal - Left in Wild
Tigers - 18
Deer - 18m
Pigs - 180000

我已设法将m从数字中去掉，但我想知道是否/如何使用if语句进行一些操作，以确保我准确记录数字：

if animal.strip("m") == animal.strip("m"):
    left_in_wild = left_in_wild * 1000000

很明显，这段代码不起作用，但这是一个粗略的想法，我正在考虑如何绕过这一点。如果有人能提供他们认为有帮助的东西，请告诉我

谢谢大家!

类似于：

import re

def get_number(s):
    try: 
        i=int(re.match('(\d+)', s).group(1))
        if "m" in s:
            i*=1000000
        return i
    except:
        print "No Number"

获取数字（“18m”）

返回

18000000

如果您有数千个或更多，甚至可以将其扩展为在s块中有一个

elif“k”。
一个简单的if语句可以帮助您查找：
animal = "18m"

if 'm' in animal:
    print animal.strip('m') + ",000,000"

if 'k' in animal:
    print animal.strip('k') + ",000"

返回：
18,000,000

如果要当场编译表达式，请改用re.match（'（\d+）'，s.group（1）
。如果您想使用预编译版本，请将其置于函数之外，或者将其设置为默认参数。很好的调用。更新。谢谢




[pandas]相关文章推荐



                                                        
使用Apply访问Pandas数据框中前一天的行
pandas 
Pandas 按列数量读取变量列和行结构
pandas 
在pandas中格式化次y轴
pandas 
Pandas 计算连续滚动平均值作为数组函数？
pandas 
Pandas 从索引中按标签选择项目
pandas 
Pandas Python：删除数据大小低于某个值的数据帧中的数据
我有一个数据帧叫做DF（这只是一个例子，实际数据很大，请考虑计算速度）如下：
   name   id     text
    tom    1      a1 
    lucy   2      b1
    john   3      c1
    tick   4      d1
    tom    1      a2 
    lucy   2      b2
    john   3      c2
    tick   4  
pandasdataframe 
Pandas Pyspark数据帧到数据的转换？
pandaspyspark 
Pandas 在spyder/PyCharm行中打印熊猫
pandasdataframeprinting 
使用pyspark时出现toPandas（）错误：'；int'；对象是不可编辑的
pandasapache-sparkpyspark 
Pandas 如何在dataframe中删除具有重复行元素的列？
pandasdataframe 
Pandas 使用另一数值列的计算对列中的分类数据进行时间重新采样
pandas 
Pandas 如何根据上个月和上一年的数据总结大熊猫中特定群体的数据？
pandas 
使用Pandas groupby连接多行中的字符串，并从逗号分隔的单元格中删除重复项
pandas 
Pandas 按一列分组，并根据另一列拆分计数
pandas 
如何使用Pandasql进行筛选
pandas 
Pandas GROUPBY返回空数据帧且无错误
pandas 
Pandas 更新模式随时间变化的拼花地板数据集
pandas 
Pandas 熊猫：如何在时间序列中选择“熊猫”的行；迄今为止见过的最大的；？
pandas 
Pandas 根据列表的内容重复行
pandas 
Pandas 如何在计算时绘制两个不同的特征？
pandasmatplotlibplotgraph 
                                       





随机文章推荐



                                                        
删除基于客户端地址的ssh会话的密码身份验证
ssh 
如何通过最初自己传递密码来ssh/su？
ssh 
连接到ssh远程主机（位于vpn网络中）超时
ssh 
如何配置nginx使ssh服务器通过subdomain.domain.tld:80可用
sshnginx 
“-L'；附近的zsh ssh add-L解析错误；
sshzsh 
Ssh 如何将参数传递给另一个jenkins构建步骤
sshjenkinscontinuous-integration 
通过代理与SSH连接
sshproxyterminal 
Ssh 宋承宪：“这是一个很好的例子。”；“错误的密码短语”；公钥生成后
ssh 
如何使用SSH隧道和螺旋式代理绕过RSYNC防火墙
sshproxy 
通过Raspberry Pi SSH访问Samba共享
sshraspberry-pi 
远程服务器更新后，Duplicati无法备份到Debian上的SSH（算法协商失败）
sshdebian 
Ssh 在Ansible playbook中使用用户名/密码（从API获取）登录
sshansible 
使用导入到VirtualBox中的导出Vagrant框时，SSH私钥身份验证失败
sshvagrantvirtualbox 
Jmeter SSH采样器可以'；无法建立套接字错误
sshjmeter 
Ssh 使用VS代码远程编辑文件的最佳方式是什么？
sshvisual-studio-code 
Jmeter-连接SSH-转换wget和keytool
sshcommand-linejmeter 
通过SSH隧道进行远程调试：接收；在套接字y上发送x字节时出现问题：“管道断开”；
sshphpstorm 
无法通过ssh从bitbucket管道连接到共享主机
ssh 
Ssh Jupyter：如何列出正在运行的内核以及哪个笔记本启动了它们？
sshjupyter-notebook 
无法通过Bitnami灯堆栈上的SSh隧道连接到phpMyAdmin
sshphpmyadmin


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Streaming
Cron
Sugarcrm
Php
Regex
Dependency Injection
Opengl
Bazel
Google Maps
Amazon Dynamodb
Webview
Responsive Design
Devexpress
Visual Studio 2010
Couchdb
Twilio
Struts2
Webrtc
Isabelle
Visual Studio 2017
Python 3.x
Openlayers
.net
Virtual Machine
Embedded
Mips
Yaml
Geolocation
Xcode
Language Agnostic
Gps
Mod Rewrite
Ms Office
Ibm Midrange
Mono
Javafx
Magento2
Programming Languages
Sencha Touch 2
Model
Nativescript
Material Ui
Swift2
Visual Studio 2013
Log4j
Pandas
Cocoa
Clojure
Opencv
Map
Netlogo
Symfony1
Compression
Xmpp
Outlook
Asp.net Core
Seo
Jenkins
Text
Aem
Nunit
Parallel Processing
Exchange Server
Mapreduce
Reference
Angular6
Synchronization
Youtube Api
Eclipse Plugin
Openstack
Google App Maker
Enums
Pdf
Clang
Openssl
Wcf
Filter
Triggers
Ecmascript 6
Docker Compose
Apache Zookeeper
Vb.net
Nginx
Workflow
Telegram
Cocos2d X
Multithreading
Utf 8
Xampp
Sql
Influxdb
Wxpython
Networking
Dart
Google Maps Api 3
Orm
File
Google Cloud Platform
Merge
Playframework 2.0
Xamarin.android
Internet Explorer 8
Redux
Encoding
Security
Windows Services
Wolfram Mathematica
Elixir
Adobe
Checkbox
Sed
Eclipse
Atom Editor
Blackberry
Jasmine
Maps
Dialogflow Es
Visual Studio 2015
Vim
X86
Laravel 5
Unit Testing
Protocol Buffers
Service
Frameworks
Spring Boot
Npm
Node.js
Openid
Coldfusion
Gruntjs
Matrix
Big O
Logic
Pytorch
Aframe
Drupal
Dotnetnuke
Jetty
Selenium
Install4j
Marklogic
For Loop
Orientdb
Sqlite
Login
Google Calendar Api
Sass
Sharepoint 2010
Testing
Requirejs
User Interface
Sms
Pyspark
Junit
Tkinter
Project Management
Julia
Automated Tests
Loopbackjs
Typo3
Vuejs2
Django Models
Polymer
Google Drive Api
Camera
Linux
Button
Tomcat
Cryptography
Windows Runtime
Tridion
Sap
Ckeditor
Moodle
Apache
Timer
Amazon S3
If Statement
Amazon Cloudformation
Mapbox
Certificate
Exception Handling
Openerp
Leaflet
Apache2
Scheme
C# 4.0
Scripting
Ldap
Recursion
Facebook Graph Api
Perl
Jboss
Class
Entity Framework
Azure Functions
Ffmpeg
Prometheus
Zsh
Oop


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网