Python Spark数据帧脚本运行非常慢_Python_Apache Spark_Pyspark_Spark Dataframe - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Spark数据帧脚本运行非常慢_Python_Apache Spark_Pyspark_Spark Dataframe - Fatal编程技术网

Python Spark数据帧脚本运行非常慢

python apache-spark pyspark

Python Spark数据帧脚本运行非常慢,python,apache-spark,pyspark,spark-dataframe,Python,Apache Spark,Pyspark,Spark Dataframe,我对大数据非常陌生，目前正在学习Spark。我已经在我的windows笔记本电脑上安装了Spark 2.0，并使用Python3.4中的Spark Dataframe api创建了一个脚本，以查找1个特定列的总和。时间太长，约5分钟3秒。此文本文件非常大（约500mb），包含240万条记录。任务管理器显示100%的CPU消耗和50%的RAM消耗。以下是我所做的： import sys from pyspark.sql import SparkSession, Row def mapLog

我对大数据非常陌生，目前正在学习Spark。我已经在我的windows笔记本电脑上安装了Spark 2.0，并使用Python3.4中的Spark Dataframe api创建了一个脚本，以查找1个特定列的总和。时间太长，约5分钟3秒。
此文本文件非常大（约500mb），包含240万条记录。
任务管理器显示100%的CPU消耗和50%的RAM消耗。
以下是我所做的：

import sys from pyspark.sql import SparkSession, Row def mapLogs(line): fields = line.split("|") return Row(userID=int(fields[0]), trackID=int(fields[1]), shared=int(fields[2]), radio=int(fields[3]), skip=int(fields[4])) spark = SparkSession\ .builder\ .config("spark.sql.warehouse.dir","file:///F:/temp")\ .appName("MusciTrackShared")\ .getOrCreate() lines = spark.sparkContext.textFile("bigTextFile.txt") # format : UserId|TrackId|Shared|Radio|Skip music_logs = lines.map(mapLogs) # convert each line to Row df = spark.createDataFrame(music_logs) # create dataframe df.filter(df['shared'] == 1).groupBy(df['trackID']).sum('shared').orderBy("sum(shared)", ascending=False).show(5) spark.stop()
我做错了什么？有人能给我指出正确的方向吗？

感谢Pig脚本提供相同的查询和测试数据，在ubuntu虚拟机上需要3分钟。Spark应该工作得更快，对吧？我用基本的RDD命令在saprk中重新编写了相同的程序，仍然需要5分钟1秒。14个小时过去了，社区没有任何评论。我真的很惊讶。

[apache spark]相关文章推荐

随机文章推荐

Tableau api 如何在tableau中嵌入州地图 tableau-api

Tableau api Tableau：数据整形后的计算字段 tableau-api

Tableau api 如何在向tableau参数添加选项时刷新数据？ tableau-api

Tableau api Tableau：向列中添加红色和绿色箭头 tableau-api

Tableau api Tableau：工作表中隐藏的参数，需要显示 tableau-api

Tableau api 在图表上显示颜色图例 tableau-api

Tableau api 编写自定义sql是否会增加tde的大小？ tableau-api

Tableau api 表中最后7天的数据计算 tableau-api

Tableau api 如何将表格提取数据转换为csv（或xls） tableau-api

Tableau api 图表在线迁移 tableau-api

Tableau api Tableau-跨特定维度值查找空值 tableau-api

Tableau api Tableau未显示分区字段（Athena连接） tableau-api

Tableau api 基于开始日期和结束日期的表格体积计算 tableau-api

Tableau api 基于计算的固定LOD表达式 tableau-api

Tableau api 减去表中的聚合和非聚合 tableau-api

Tableau api Tableau服务器用户如何更改粒度表上的axis视图？ tableau-api

Tableau api 使用日期过滤器计算WindowAvg tableau-api

Tableau api Tableau上个月运行平均值的计算字段 tableau-api

Tableau api 比较一个小时'；s可用性计数，包括每个类别交货日期的上一个小时和下一个小时 tableau-api

Tableau api 是否有一种方法可以在表中的多个条件下，从粒度级别到聚合级别计算不同的数量？ tableau-api

[python]相关推荐

Python 如何在re.compile（）中找到的行之后打印出该行
Python Parsing

使用Python 3编写到libpcap的绑定
Python Python 3.x

如何使用Qt4和Python中的标记制作编辑器？
Python Qt4 Markdown

Python twisted Resource object render_Post如何在延迟后返回特定值
Python

Python 获取Django多个油田的总价
Python Django

Python I'；我正在尝试创建一个密码创建者
Python

哪一个是执行命令的最佳python模块
Python Linux Shell

Python 基于另一个引用数组从一个数组中选择紧密匹配
Python Arrays Matlab Numpy

如何使用Python打开（并保持打开）终端窗口以运行Appium？
Python Appium

Python numpy数组上的幂运算符**返回一个奇怪的结果。是虫子吗？
Python Numpy

Python 如何使用列表中的值格式化字符串？
Python String List Python 3.x

如何在python文本中大写每个句子的开头？
Python

在Python中将字符串数据转换为整数
Python Python 3.x

Python 默认情况下tf.Dataset.batch是否预加载以及如何禁用？
Python Tensorflow

Python 刮取一些子链接，然后返回主刮取
Python Web Scraping Scrapy

Python triangulatePoints（）方法的奇怪行为
Python Opencv Computer Vision

Python Plotly in flask应用程序测量实时数据
Python Flask

Python 使用参数手动调用内置类型函数
Python

如何为python sdk的Bot框架格式化输出消息？
Python Botframework

Python 使用造纸机执行Jupyter笔记本并输出唯一的文件名
Python Bash Jupyter Notebook

使用图像将python文件转换为exe
Python

应用程序启动时的python数据库迁移
Python Sqlalchemy

Python 使用正则表达式向分隔列表添加引号
Python Regex

Python 使用ExceltoCi将数据加载到Peoplesoft数据库
Python Excel Vba Talend

Python 确认TF2在培训时正在使用我的GPU
Python Python 3.x Tensorflow

Python 遍历值列表时超过的执行时间
Python

如何使用Python通过Strava API访问身份验证？
Python Api Oauth 2.0

Python 从字典键和值填充数据帧：有效方法
Python Python 3.x Pandas Dataframe Dictionary

Graphene在其响应中发送Python错误消息-我如何告诉它更加离散？
Python Error Handling Graphql

Python 在windows 10中安装postgres sql
Python Postgresql

Tags

Electron Fortran Windows Installer Jmeter Applescript String Windows 10 Tinymce Visual Studio Code Nginx Openid Iphone Json Pdf Deployment Autodesk Forge Install4j .net Core Rxjs Blackberry Performance Soap Iframe Openerp Graphics Extjs Couchbase Xpath Rally Openstack Gps Lucene Lisp Jar Domain Driven Design Stream Image Command Line Rust Here Api For Loop Migration Django Models Tableau Api Loopbackjs Logic Dictionary Error Handling Windows 7 Android Fragments Sparql Https Sap Doctrine Orm Tensorflow Swagger Abap Sharepoint 2007 Ios8 Excel Zsh Moodle Android Emulator Java Utf 8 Sqlite Tcp Google Colaboratory Log4net Entity Framework 4 Apache Nifi Outlook Tcl Asp.net Blazor Isabelle Netbeans Github Clang Single Sign On Testng Iis 7 Timer Modelica Google Maps Api 3 Rss Build Plot Cloud Foundry Concurrency Jupyter Notebook C Svg Sdk Autohotkey Function Phpstorm Wso2 Windows Phone 8 Entity Framework Bison Functional Programming Apache Camel Frameworks Animation Vector Azure Ad B2c Scheme Tree Menu Spring Batch Composer Php Formatting Wcf Discord.js Mfc Gis Actions On Google Autocomplete Fonts Google Compute Engine Phantomjs Matplotlib Dataframe Module Gremlin Unix Nosql Ruby On Rails 3 Webpack Jvm Log4j Hyperledger Fabric Ignite Scrapy Python 3.x Artifactory Virtual Machine Drupal 6 Ios5 Quickbooks Yocto Go Algorithm Report Vb.net Ckeditor Properties Cocos2d Iphone Pine Script Winapi Python Sphinx Inno Setup Ruby On Rails Csv Liferay Azure Cosmosdb Amazon Redshift Mvvm Amazon S3 Design Patterns Snmp Uwp Compression Sql Gmail Prometheus Teamcity Ffmpeg Docker Azure Service Fabric Facebook Directx Server Appium Firebase Activerecord Angular Material Mariadb Telegram Visual Studio 2015 Hybris Keras Elm Language Agnostic React Native Netty Google Cloud Storage Chart.js Exception Pycharm Android Ndk Aframe Sql Server 2005 Oauth 2.0 Alfresco Ms Word Windows Phone 8.1 Jquery Vagrant Ruby On Rails 3.2

Copyright © 2024. All Rights Reserved by - Fatal编程技术网