Python 如何有效地保存一个大熊猫。数据帧，百万甚至十亿行，没有错误？_Python_Pandas_Csv_Hdf5 - Fatal编程技术网

Python 如何有效地保存一个大熊猫。数据帧，百万甚至十亿行，没有错误？

python pandas csv

Python 如何有效地保存一个大熊猫。数据帧，百万甚至十亿行，没有错误？,python,pandas,csv,hdf5,Python,Pandas,Csv,Hdf5,如何以良好的读取速度将大数据帧保存到磁盘我有一个大的数据集（youtube 8M），现在我已经提取了原始数据进行dict。我想将其保存为数据帧，以便使用pytorch数据集进行索引读取具体来说，验证数据如下所示： INT64索引：1112356个条目，0到1112355 数据列（共4列）： id 1112356非空对象 mean_rgb 1112356非空对象 mean_audio 1112356非空对象标签1112356非空对象数据类型：对象（4）内存使用率：42.4+MB 数据

如何以良好的读取速度将大数据帧保存到磁盘

我有一个大的数据集（youtube 8M），现在我已经提取了原始数据进行dict。我想将其保存为数据帧，以便使用pytorch数据集进行索引读取

具体来说，验证数据如下所示：


INT64索引：1112356个条目，0到1112355
数据列（共4列）：
id 1112356非空对象
mean_rgb 1112356非空对象
mean_audio 1112356非空对象
标签1112356非空对象
数据类型：对象（4）
内存使用率：42.4+MB

数据类型如下所示：

id:str
平均值：numpy.ndarray
平均音频：numpy.ndarray
标签：numpy.ndarray

我想把它保存到磁盘上，以便有效地读取它。首先，我将

hdf5

与

pd.to_hdf（）

一起使用，但得到了一个

溢出错误
然后，我转到csv
，并成功保存。然而，当我从这个.csv
读取数据时，我得到了一个损坏的数据框。其中，行数远远大于1112356
最后，我用chunksize=1000
将dataframe
保存到csv
，读取的结果仍然与2842137
行以及更混乱的内部数据错误
RangeIndex: 2842137 entries, 0 to 2842136
Data columns (total 1 columns):
widwmean_rgbwmean_audiowlabel    object
dtypes: object(1)
memory usage: 21.7+ MB


也许这个链接可以帮助你：feather
也许可以帮助也许这个链接可以帮助你：feather
也许可以帮助你




[pandas]相关文章推荐



                                                        
Pandas 从具有行和列多索引的dataframe创建dataframe箱线图
pandasmatplotlib 
Pandas 拉链线错误键错误：
pandas 
Pandas 数据帧'；s第二个多重索引
pandas 
Pandas 熊猫时间序列转换和格式化
pandas 
Pandas 从.csv导入数据帧时，如何避免NaN索引值？
pandasindexing 
Pandas 平均特征后，学习算法的精度下降
pandasmachine-learningneural-network 
Pandas timestamp和python datetime对时区的解释不同
pandasdatetime 
Pandas 表-扩展到行的索引值
pandasindexing 
Pandas 如何在保留重复索引的同时合并数据帧列表？
pandasdataframemerge 
Pandas 熊猫是基于一行的
pandas 
Pandas 填充缺少的值，而列中有非数值
pandasscikit-learn 
Pandas 如何将列中的值从对象类型更改为浮动。例如，“我的朋友们'€；220M“；到220000000？
pandas 
Pandas 为什么有'；列中是否没有nan值？
pandas 
Pandas 如何使用reindex来填充缺少的时间步？
pandas 
Pandas 如何将numpy阵列重塑为三维，以便输入到卷积层？
pandasnumpy 
Pandas 函数向数据框中的所有列标题添加下划线
pandasfunction 
Pandas 熊猫：合并两个Dataframe、添加列和删除重复行
pandasdataframemerge 
Pandas 使用Python字典过滤数据库中的唯一匹配项
pandas 
Pandas 数据框中的分组依据和联接列
pandas 
从Pandas数据框绘制堆叠条形图和多条形图
pandas 
                                       





随机文章推荐



                                                        
有没有办法添加基本上是现有数据类型分组的Umbraco自定义数据类型？
umbraco 
无法加载umbraco 4.5.2中的节点树[错误。500内部服务器错误]
umbraco 
Umbraco 不存在在url'；处呈现文档的模板/'；
umbraco 
如何在Umbraco管理面板中取消隐藏分区？
umbraco 
Umbraco动态添加项目
umbraco 
Umbraco表单-从电子邮件中的日期选择器日期中删除时间
umbraco 
有没有办法限制使用Umbraco中的Imageprocessor提供全分辨率图像？
umbraco 
媒体文件夹Id存储在Umbraco数据库中的什么位置？
umbraco 
Umbraco路由在主节点外不工作
umbraco


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Python 如何使通用提要解析器只解析提要？
									Python
							 
如何将python转换成excel
									Python
							 									Excel
							 									Web Scraping
							 
Python PySide：创建自定义QCursor
									Python
							 
避免Python中出现不和谐或不可维护的GUI测试结构
									Python
							 
Python 使用numpy处理exp中的溢出
									Python
							 									Numpy
							 
如何在python中生成目录的路径
									Python
							 									Path
							 									Operating System
							 
Python 如何对浮点数进行四舍五入？
									Python
							 									Python 3.x
							 									Floating Point
							 
Python 如果范围（x，y）中的数字包含数字，则打印数字
									Python
							 									Python 3.x
							 
Python 连接重复值/行时出现问题
									Python
							 									Pandas
							 									Indexing
							 
Python Pip导入错误没有名为logging的模块
									Python
							 									Django
							 									Python 2.7
							 									Pip
							 
Python 如何使用pygsheets上载工作表
									Python
							 									Json
							 
Python 如何将vtkTextActor3D写入文件？
									Python
							 
python3中的Regex子字符串
									Python
							 									Regex
							 									Python 3.x
							 
Python “ListSerializer”对象不是可调用的请求方法
									Python
							 									Json
							 									Django
							 									Api
							 									Django Rest Framework
							 
Python请求的SSL错误握手错误
									Python
							 									Ssl
							 									Web Scraping
							 
从Python中的json文件读取数据以实现web应用程序的自动化
									Python
							 									Json
							 									Selenium
							 									Xpath
							 
Python 将CSV的最后N列读取为带有熊猫的列表
									Python
							 									Csv
							 									Pandas
							 
在python中，Nonetype并没有属性get item，但可以在源页面中看到值，并在相同的格式下调用
									Python
							 									Json
							 
PythonRedis返回结果，并在结果中附加文本
									Python
							 									Redis
							 
python编程字符串处理
									Python
							 
Python 无论我做什么，“int”对象都是不可编辑的
									Python
							 									Python 3.x
							 
Python 与move_成员（）的Discord.py问题
									Python
							 									Discord
							 
Python基于数组键对两列求和
									Python
							 
Python foreginkey的filterd queryset
									Python
							 									Django
							 
无效语法elif python
									Python
							 
Python 如何使用PyQT对话框标题栏上的“？”（这个小部件是什么
									Python
							 
Python Lambda脚本以获取没有特定标记的实例名称
									Python
							 									Amazon Web Services
							 									Aws Lambda
							 
Python 如何基于非零的其他值绘制.bar
									Python
							 									Matplotlib
							 
Python3为什么这个简单兴趣代码在我检查try和except情况时打印最后计算的简单兴趣值？
									Python
							 									Python 3.x
							 									Jupyter Notebook
							 
Python 索引器：索引超出范围（熊猫）
									Python
							 									Pandas
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Object
Download
Swagger
Swiftui
Swift
Msbuild
Caching
Types
Hazelcast
Pine Script
Processing
File Upload
Actions On Google
Azure Devops
Antlr4
Sql Server
C# 4.0
Timer
Ignite
Xpages
Solr
Ibm Mq
Azure Sql Database
Automated Tests
Anaconda
Ember.js
Gps
Nosql
Vb6
Formatting
Teradata
Linux Kernel
Zend Framework2
Asterisk
Flask
Elm
Pagination
Sql Server 2008
Scrapy
Http
Vaadin
Maven
Colors
Hybris
Youtube
Sharepoint
Gdb
Ruby On Rails 3.1
Sphinx
Reactjs
Vagrant
Listview
Nlp
Socket.io
Python
Oracle
Graphql
Xquery
Zend Framework
Sublimetext2
Jsf 2
Couchdb
Pentaho
Swing
Odoo
Wso2
Acumatica
Amp Html
Log4j
Jestjs
Sql
Cors
Crystal Reports
Next.js
Plot
Nservicebus
Jdbc
Silverstripe
Yocto
Data Binding
Sql Server 2008 R2
Moodle
Pandas
Xampp
Jmeter
Udp
Gremlin
Svg
Testng
Itext
Scheme
Active Directory
Operating System
Openlayers 3
Mono
Cmd
Permissions
Dom
Cuda
Tableau Api
Prometheus
View
Mips
Aframe
Content Management System
Autocomplete
Google Chrome Extension
Ide
Iphone
Google App Maker
Log4net
Actionscript 3
Azure Data Factory
Oauth 2.0
Npm
Vb.net
Configuration
Google Apps Script
Jms
Embedded
Fonts
Neo4j
Excel Formula
Openssl
Websphere
Mule
Scikit Learn
Couchbase
Sprite Kit
Webview
Url
Multithreading
Join
Erlang
Openerp
Primefaces
Libgdx
Ms Office
Orm
Visual Studio 2013
Ruby On Rails 3
Windows Phone
Streaming
Directx
Xna
Latex
Qt
Twig
Sqlalchemy
Optimization
Ssis
Version Control
Air
Omnet++
Arduino
Bazel
For Loop
Asp.net Core Mvc
Openstack
Ssh
Sas
Gstreamer
Redux
Apache Zookeeper
Windows Phone 7
Gcc
Api
Glsl
Robotframework
Windows Phone 8
Mapping
Doctrine Orm
Laravel 5
Docusignapi
Methods
Orchardcms
Sdk
Sparql
Mapreduce
Linker
Typo3
Testing
Tcl
R
Search
Mvvm
Maps
Ldap
EmptyTag
Angularjs
Jira
Sharepoint 2007
Rust
Stm32
Visual Studio 2012
Arrays
Canvas
.net 4.0
C++11
Cron
Google Maps Api 3


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网