Python 大数据的Impala中值计算_Python_Pandas_Impala_Median_Impyla - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/345.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 大数据的Impala中值计算_Python_Pandas_Impala_Median_Impyla - Fatal编程技术网

Python 大数据的Impala中值计算

python pandas

Python 大数据的Impala中值计算,python,pandas,impala,median,impyla,Python,Pandas,Impala,Median,Impyla,我可以访问任意月份数亿行的数据。3个特性：表示日期的字符串、表示类型的字符串和表示金额的值有了python和impala（SQL）的访问权限，计算每月每种类型数百万行的中位数的最佳方法是什么如果我使用一个简单的groupby:date部分的type和substring来获取month eg substring（date，1,4），并使用APPX_MEDIAN函数作为中位数，那么Impala查询的内存就用完了如果我尝试将原始数据作为CSV（比如使用DBeaver），它的大小非常大，太大，无法

我可以访问任意月份数亿行的数据。3个特性：表示日期的字符串、表示类型的字符串和表示金额的值

有了python和impala（SQL）的访问权限，计算每月每种类型数百万行的中位数的最佳方法是什么

如果我使用一个简单的groupby:date部分的type和substring来获取month eg substring（date，1,4），并使用APPX_MEDIAN函数作为中位数，那么Impala查询的内存就用完了

如果我尝试将原始数据作为CSV（比如使用DBeaver），它的大小非常大，太大，无法放入我可以访问的VM的内存中，如果我尝试将CSV推入python数据帧，它将保存CSV

我不熟悉处理大数据的模式，因此任何提示都将不胜感激。由于数据量太大，我很难进行简单的计算

您可以通过指定

SET MEM_LIMIT=Xg

，尝试增加Impala用于执行查询的内存量，其中X将是每个Impala守护程序的GB内存。有关更多详细信息，请参阅

[pandas]相关文章推荐

Pandas 从Python中的行值中提取列 pandas

Pandas Python-如何从excel列创建列表 pandas

Pandas 具有前五个计数的seaborn countplot pandas

Pandas 连接不同索引的数据帧时会产生Nan pandas

Pandas 根据复杂条件将列添加到pd.df pandas numpy

新的statsmodels依赖项是什么，特别是关于pandas.WidePanel的？ pandas dependencies

Pandas 根据条件在新列中添加值 pandas

Pandas 结构化流式多行到自定义项 pandas apache-spark pyspark

Pandas 新熊猫数据框从连续刮擦中填充，列名已知 pandas

Pandas 基于多索引的数据帧Mul pandas

Pandas 如何将值存储在变量中并使用该变量过滤变量中的数据 pandas

Pandas 绘制一个带有数据帧的线图 pandas dataframe matplotlib

Pandas 我怎样才能把整个专栏凑到下一个10页？ pandas csv

使用pandas转换十进制纬度和经度中跳过nan值的字符串列 pandas string

Pandas 如何在DataRicks中读取数据帧？ pandas dataframe

Pandas 从数据框中查找筛选的numpy数组中的列标签 pandas numpy dataframe

Pandas 如何删除数据框中列值不在列表中的行 pandas dataframe

Pandas 基于列值（字符串、子字符串）比较两个数据帧，并更新另一个列值 pandas string loops dictionary

Pandas 如何在取消堆栈后重置数据帧上的索引？ pandas dataframe indexing

Pandas 使用多个函数时，数据帧应用速度较慢 pandas dataframe

随机文章推荐

Windows 7 Windows 7上的WCF性能 windows-7 performance

Windows 7 VirtualBox-同步问题 windows-7 ubuntu virtualbox

Windows 7 在没有管理员权限的情况下写入Windows 7上的HKEY_LOCAL_计算机 windows-7 installation

Windows 7 如何以编程方式设置WIndows 7中所有运行进程的关联性？ windows-7

Windows 7 cocos2dpython中的精灵和颜色层没有'；行不通 windows-7 python-2.7

Windows 7 在win7上测试IE10 windows-7 virtualbox

Windows 7 运行批处理脚本期间/之后，timeout和ping等基本命令不可用 windows-7 batch-file cmd

Windows 7 XAMPP不'；安装后不要绑定到端口 windows-7 xampp

Windows 7 RubyTest升华文本2不适用于Windows 7 windows-7 sublimetext2

Windows 7 如何在Windows7中向上下文菜单添加一个条目，并将一个复杂的命令与之关联？ windows-7

Windows 7 Can'；无法编辑主机文件 windows-7 permissions notepad++

Windows 7 使用USB驱动器作为引导驱动器和存储 windows-7 usb

Windows 7 如何查找磁盘使用率高的文件夹？（Win7） windows-7

[python]相关推荐

Tags

Object Download Swagger Swiftui Swift Msbuild Caching Types Hazelcast Pine Script Processing File Upload Actions On Google Azure Devops Antlr4 Sql Server C# 4.0 Timer Ignite Xpages Solr Ibm Mq Azure Sql Database Automated Tests Anaconda Ember.js Gps Nosql Vb6 Formatting Teradata Linux Kernel Zend Framework2 Asterisk Flask Elm Pagination Sql Server 2008 Scrapy Http Vaadin Maven Colors Hybris Youtube Sharepoint Gdb Ruby On Rails 3.1 Sphinx Reactjs Vagrant Listview Nlp Socket.io Python Oracle Graphql Xquery Zend Framework Sublimetext2 Jsf 2 Couchdb Pentaho Swing Odoo Wso2 Acumatica Amp Html Log4j Jestjs Sql Cors Crystal Reports Next.js Plot Nservicebus Jdbc Silverstripe Yocto Data Binding Sql Server 2008 R2 Moodle Pandas Xampp Jmeter Udp Gremlin Svg Testng Itext Scheme Active Directory Operating System Openlayers 3 Mono Cmd Permissions Dom Cuda Tableau Api Prometheus View Mips Aframe Content Management System Autocomplete Google Chrome Extension Ide Iphone Google App Maker Log4net Actionscript 3 Azure Data Factory Oauth 2.0 Npm Vb.net Configuration Google Apps Script Jms Embedded Fonts Neo4j Excel Formula Openssl Websphere Mule Scikit Learn Couchbase Sprite Kit Webview Url Multithreading Join Erlang Openerp Primefaces Libgdx Ms Office Orm Visual Studio 2013 Ruby On Rails 3 Windows Phone Streaming Directx Xna Latex Qt Twig Sqlalchemy Optimization Ssis Version Control Air Omnet++ Arduino Bazel For Loop Asp.net Core Mvc Openstack Ssh Sas Gstreamer Redux Apache Zookeeper Windows Phone 7 Gcc Api Glsl Robotframework Windows Phone 8 Mapping Doctrine Orm Laravel 5 Docusignapi Methods Orchardcms Sdk Sparql Mapreduce Linker Typo3 Testing Tcl R Search Mvvm Maps Ldap EmptyTag Angularjs Jira Sharepoint 2007 Rust Stm32 Visual Studio 2012 Arrays Canvas .net 4.0 C++11 Cron Google Maps Api 3

Copyright © 2024. All Rights Reserved by - Fatal编程技术网