尝试获取随机林中的特征重要性(PySpark)

我的客户数据有近15k列。 我试图在数据上运行RF以减少列数,然后在其上运行其他ML算法 我能够在PySpark上运行RF,但无法提取变量的特征重要性 任何人有任何关于相同或任何其他技术的线索,可以帮助我将15k变量减少到200多个变量

如何在PySpark中的列中找到相同的元素?

我有一个txt文件。有一个4列的数据集。第一列的平均值是电话号码。我必须找到相同的电话号码。我的txt文件是这样的 ... 0544147,23,86,40.761650,29.940929 0544147,23,104,40.768749,29.968599 0538333,21,184,40.764679,29.929543 05477900,21,204,40.773071,29.975010 0561554,23,47,40.764694,29.927397 0556645,24,6,4

如何在pyspark dataframe中动态添加列

我试图添加几个基于输入变量vIssueCols的列 from pyspark.sql import HiveContext from pyspark.sql import functions as F from pyspark.sql.window import Window vIssueCols=['jobid','locid'] vQuery1 = 'vSrcData2= vSrcData' vWindow1 = Window.partitionBy("vKey").orderBy("vOr

Pyspark-每年和每月的平均天数

我有一个存储在hdfs中的CSV文件,格式如下: Business Line,Requisition (Job Title),Year,Month,Actual (# of Days) Communications,1012_Com_Specialist,2017,February,150 Information Technology,5781_Programmer_Associate,2017,March,80 Information Technology,2497_Programmer_Se

使用pyspark将KMS加密的spark数据帧读写到S3存储桶时出现问题

我正在尝试使用Pyspark将Spark数据帧写入AWS S3 bucket,并得到一个异常,即指定的加密方法不受支持。该存储桶具有服务器端加密设置 我正在从spark-default.conf运行以下程序包: amazonaws:aws java sdk:1.9.5,org.apache.hadoop:hadoop aws:3.2.0 回顾了这个现有的线程:它提到上面的版本应该支持SSE-KMS加密 我还包括core-site.xml以拥有该属性 “fs.s3a.server-side enc

Pyspark 将AWS胶水输出格式化为JSON对象

这是我在AWS GLUE的pyspark工作中得到的结果 {a:1,b:7} {a:1,b:9} {a:1,b:3} 但我需要在s3上编写这些数据,并将其发送到JSON数组中的API 格式 我尝试将输出转换为DataFrame,然后应用 toJSON() results=mapped\u dyF.toDF() jsonResults=results.toJSON().collect() 但是现在无法使用“write\u dynamic\u frame.from\u options” 由于它需要

jupyter_client.kernelspec.NoSuchKernel:没有名为PySpark的内核

我试图从命令行执行Jupyter笔记本。我目前正在使用下面链接中提供的docker图像 当我尝试在下面的命令行中执行时,它失败了 jupyter nbconvert --to notebook --ExecutePreprocessor.kernel_name=PySpark --ExecutePreprocessor.timeout=3600 --execute notebooks/sample-notebook.ipynb 下面是错误消息 [NbConvertApp] Converti

如何使用PySpark结构流媒体+;卡夫卡

我试着用kafka使用spark结构流媒体,当我使用spark提交时出现问题,消费者仍然从产品接收数据,但spark结构是错误的。请帮助我查找代码中的问题 下面是我在test.py中的代码: from kafka import KafkaProducer from kafka import KafkaConsumer from pyspark.sql import SparkSession spark = SparkSession.builder.appName('stream_test').g

仅更新更改的行pyspark delta表数据块

与创建的数据帧相比,需要只更新现有表中已更改的行。所以现在,我确实减去并得到更改的行,但不确定如何合并到现有表中 old_df = spark.sql("select * from existing table") diff = new_df.subtract(old_df) 现在必须插入差异数据帧(如果是新行)或更新现有记录 (deltaTable.alias("full_df").merge( merge_df.alias("app

Pyspark 我可以在删除旧分区后立即导入更新的分区吗?

我有一个名为transactions alias txs(简称transactions alias txs)的表,其中包含1500万行,由txs进行分区。对于过去10年积累的数据,每年大约有100万到150万行。这些数据的来源是一个MySQL数据库,唯一改变的数据是当年的数据。我的策略是设置一个每日CRON作业,以压缩的CSV格式(即20XX-txs.CSV.gz)导出当前年份的所有记录,然后使用AWS Glue/PySpark将其转换为由txs.year分区的snappy.parquet格式

Pyspark 带分离器的分离式Pypspark柱

我想用一个点分隔我的Pyspark列。该列是在我从HDFS读取CSV文件时创建的。我使用了下面的代码块 from pyspark.sql import functions as F split_col = F.split(df['File_ID'], '.') df = df.withColumn('File_ID', split_col.getItem(0)) \ .withColumn('csv', split_col.getItem(1)) \ df.show

Pyspark SaveAsTable未从SQL推断架构

我正在尝试通过执行以下操作从SQL查询的输出创建表: sqlContext = HiveContext(self.sc) j = "select a as a1, b as b1, c as c1 from x" df = self.sqlContext.sql(j) df.write.saveAsTable(target_table) 这将使用两列(键和值)保存表,而不是a1、b1、c1列。我想这是因为我没有在这里定义模式。但与不推荐使用的df.saveAsTable(表)使用的方法相同,该

Pyspark数据帧运算符“;不在“中”;

我想把这个从R改写成Pyspark,有什么好看的建议吗 array <- c(1,2,3) dataset <- filter(!(column %in% array)) array在pyspark中,您可以这样做: array = [1, 2, 3] dataframe.filter(dataframe.column.isin(array) == False) 或使用二进制NOT运算符: dataframe.filter(~dataframe.column.isin(array

Pyspark Pypark每周事件的计算

我试图计算一个单词每周出现的次数。也就是说,本周每个单词是否比前一周更频繁。为此,我有点被卡住了。我做了以下工作: m = sc.parallelize(["oded,12-12-2018", "oded,12-03-2018", "oded,12-12-2018", "oded,12-06-2018", "oded2,12-02-2018", "oded2,12-02-2018"]) m = m.map(lambda line: line.split(','))

Pyspark 列表的最小值

如何找到存储在单元格中的列表的最小值? 我可以做一个udf,但这感觉太过分了。pyspark.sql.functions中的min函数仅对组有效(这是groupBy的结果) 如果您导入了pyspark.sql.functions,并且包含python的min,您仍然可以使用\uuuuuuuu内置项\uuuuu前缀访问它,例如: min_ = udf(lambda inarr: __builtins__.min(inarr), IntegerType()) 只需排序,然后取第一个值/行 df.s

如何改进pyspark中的.collect()?

有没有其他方法可以优化pyspark,从而提高.collect()的性能 我正在使用映射(lambda row:row.asDict(),x.collect()),对于10K记录,这需要5秒以上的时间。我没有尝试过,但可能 project可以帮助您您可以在收集之前将它们转换为dict,以便以分布式方式工作。x、 映射(lambda行:row.asDict()).collect()。我认为这应该比收集后做要快。

如何对pyspark中每个组内的变量进行排序?

我正在尝试为每个id使用另一列ts对值val进行排序 # imports from pyspark.sql import functions as F from pyspark.sql import SparkSession as ss import pandas as pd # create dummy data pdf = pd.DataFrame( [['2',2,'cat'],['1',1,'dog'],['1',2,'cat'],['2',3,'cat'],['2',4,'dog']

如何监视由pyspark启动的任务

我正在使用pyspark在集群上运行一些任务。 我想查看任务的状态。 我认为UI必须默认启动 但我无法获得用户界面(大约)。您使用的是纱线还是什么?不,我没有使用纱线

Pyspark 在某些匹配条件下如何左反连接

我有两个表——一个是核心数据,有一对ID(PC1和P2)和一些blob数据(P3)。另一个是前表中PC1的黑名单数据。我将调用_df中的第一个表和第二个黑名单 我要做的是从in_df中删除行,只要in_df.PC1==blacklist_df.P1和in_df.P2==black_list_df.B1。下面是一个代码片段,以更明确地显示我想要实现的目标 in_df = sqlContext.createDataFrame([[1,2,'A'],[2,1,'B'],[3,1,'C'], [4,1

Pyspark Spark 2.2.0在将表格加载到DF时无法连接到Phoenix 4.11.0版本

我正在使用下面的techstack,并尝试使用PySpark代码连接Phoenix表。我已从url下载了以下JAR,并尝试执行以下代码。在日志中,已建立到hbase的连接,但控制台无法执行任何操作。如果有人遇到并解决了类似问题,请告诉我 罐子: phoenix-spark-4.11.0-HBase-1.2.jar phoenix-client.jar 所有技术堆栈均在同一主机上运行: Apache Spark 2.2.0版本 Hbase 1.2版 凤凰4.11.0版 复制了路径/spark/c

在pyspark中将时间戳转换为特定日期

我想在特定列上转换特定日期的时间戳 以下是我的意见: +----------+ |时间戳| +----------+ |1532383202| +----------+ 我所期望的是: +------------------+ |日期| +------------------+ |24/7/2018 1:00:00 | +------------------+ 如果可能的话,我想把分和秒设置为0,即使它不是0 例如,如果我有: +------------------+ |日期| +-----

Pyspark-通过忽略空值计算组后的最小值

我想对一个数据集进行分组,并为每个组计算变量的最小值,忽略空值。例如: NAME | COUNTRY | AGE Marc | France | 20 Anne | France | null Claire | France | 18 Harry | USA | 20 David | USA | null George | USA | 28 如果我计算 from pyspark.sql import functions as F m

Pyspark:获取时间窗口之间的行数

我有一些这种格式的数据: 用户id |日期|应用程序|已打开 123 | 2018-09-01 | 1 123 | 2018-09-01 | 1 123 | 2018-09-01 | 1 234 | 2018-08-23 | 1 234 | 2018-08-23 | 1 234 | 2018-08-21 | 1 234 | 2018-08-10 | 1 我正在尝试获取一天内打开的应用程序数,以及从当天开始的上周打

绘制一个非常巨大的pyspark柱的柱状图

相关问题: 我有一个很长的专栏,我无法将其转换为熊猫,正如上面主题spark耗尽内存所建议的那样 如何绘制此列的直方图?您应该能够从随机抽样的数据子集中获得具有代表性的直方图。可能从1%开始,如下所示: dfs = df.sample(withReplacement=False, fraction=0.01, seed=None).toPandas() 然后查看内存是否允许dfs.hist 在数据科学的许多应用中,对大型列和数据帧进行下采样是完全合法的,尽管在寻找罕见事件时可能会遇到麻烦。在s

Pyspark 使用Python在Databricks中增强XGBoost

因此,最近我一直在使用Mlib Databricks群集,并看到我的群集版本(5.1)可以使用“根据文档”。这个集群正在运行Python 2 我觉得XGBoost4J只适用于Scala和Java所以我的问题是:如何将xgboost模块导入到这个环境中而不丢失分发功能? 下面是我的代码示例 from pyspark.ml import Pipeline from pyspark.ml.feature import StringIndexer from pyspark.ml.feature impo

我可以通过pyspark在Spark中使用L-BFGS优化器吗?

我想在PySpark中用python创建我自己的估计器。 我想使用的L-BFGS优化算法,以适应或任何其他优化算法可用。 如何通过pyspark访问这些优化算法? 是否有一个示例显示了这是如何实现的?来自pyspark.mllib.classification导入逻辑回归与LBFGS 来自pyspark.mllib.classification导入逻辑回归与LBFGS 你最终弄明白了吗?我可以在scala中使用breeze数字处理库来实现这一点,但不确定如何在python中实现。我无法在pyth

Pyspark 如何筛选语言的Wikidata转储?

我已经下载了RDF格式的Wikidata truthy转储(.nt.bz2文件)。我想将转储的语言限制为英语,并将这个新的过滤转储生成为一个新的.nt文件 我曾尝试使用并行grep来过滤带有“@en”文本的行,但这会消耗大量的处理时间 是否有更快的方法生成过滤转储?类似于使用Spark的东西?对您来说可能有点晚了,但同时生成了一个工具来创建自定义转储: 使用此工具,您可以在线定义语言筛选器,然后下载一个仅包含相关三元组的.nt文件。可能对您来说有点晚了,但同时生成了一个创建自定义转储的工具: 使

如何使用pyspark递归地获取存储在dbfs文件夹中的Excel文件?

我在dbfs中安装了一个路径,我需要从给定文件夹中提取Excel文件路径,同一文件夹包含Excel文件或包含Excel文件的子文件夹。当前代码仅提供一个文件夹中的Excel文件,而不提供子文件夹中的Excel文件 files = dbutils.fs.ls('/raw/internal/srange/2018_11_30_00_22_11/') for file in files: if file.path.endswith('xlsx'): path = '/dbfs' + fil

Pyspark AWS EMR中的火花步进失败,exitCode 13

我正在尝试EMR,我试着运行一个非常简单的spark程序 from pyspark.sql.types import IntegerType mylist = [1, 2, 3, 4] df = spark.createDataFrame(mylist, IntegerType()).show() df.write.parquet('/path/to/save', mode='overwrite') 我通过在AWS EMR web控制台中添加一个步骤来启动应用程序我从s3选择deploy mo

Pyspark 用高低不平的柱子连接

我有两个数据帧,其结构如下: |来源|#用户|#点击|小时|类型 及 类型|总#用户|小时 我想根据小时加入这些列,但是第一个数据帧在第二个数据帧中的粒度更深,因此有更多的行。基本上我想要一个数据帧,我有 |来源|#用户|#点击|小时|类型|总#用户 其中,总用户数来自第二个数据帧。有什么建议吗?我想我可能想用地图 编辑: 这里有一个例子 DF1 DF2 结果 |Source|#Users|#Clicks|Hour|Type |Total #Users |Prod1 |50 |3

pyspark数据帧的数据类型中的不同计数

我需要一个函数在PypPark数据帧中获得类似的内容: 变量类型: 数字:4 类别:4 日期:1让我们在Pyspark Shell中创建一个虚拟数据帧 rdd=sc.parallelize([[x',1,'y',2,1.1]]) >df=spark.createDataFrame(rdd,模式=['Col1','Col2','Col3','Col4','Col5']) 以下是df的列类型 >>df 数据帧[Col1:string,Col2:bigint,Col3:string,Col4:bigi

Pyspark文件系统fs.listStatus(sc._jvm.org.apache.hadoop.fs.Path(Path))只返回第一个子目录

我想在Pyspark中递归地遍历给定的hdfs路径,而不使用hadoop fs-ls[path]。我尝试了建议的解决方案,但发现listStatus()仅返回给定路径中第一个子目录的状态。根据,如果路径是目录,listStatus应返回“给定路径中文件/目录的状态”。我缺少什么 我使用的是Hadoop 2.9.2、Spark 2.3.2和Python 2.7。我无法准确地重新创建场景,但我认为这与以下事实有关:如果路径不是目录,listStatus()在该路径上,将返回一个长度为1的列表,其中仅

使用Pyspark在数据帧的不同列上提取多个平均值和移动平均值

我有一个数据框,如下所示: 我想计算并创建具有以下功能的新列: 过去1天内质量/强度的平均值/移动平均值 过去2天内质量/强度的平均值/移动平均值 过去5天内质量/强度的平均值/移动平均值 过去1周内质量/强度的平均值/移动平均值 过去两周内质量/强度的平均值/移动平均值 过去1个月内质量/强度的平均值/移动平均值 请告诉我如何在pyspark中实现这一点。您可以使用group by子句中的窗口来指定聚合的天数 from pyspark.sql.window import Window f

如何使用Pyspark将flatmap与Dataframe中的多列一起使用

我的DF如下所示: Name city starttime endtime user1 London 2019-08-02 03:34:45 2019-08-02 03:52:03 user2 Boston 2019-08-13 13:34:10 2019-08-13 15:02:10 我想检查endtime,如果它跨越到下一个小时,则使用当前小时的最后一分钟/秒更新当前记录,并附加另一行或多行类似数据,如下图所

如何检查RDD在pyspark中是否包含列表元素?

我有一个包含以下值的列表 items = [v1,v2,v3] 我有一个RDD,下面是行 RDD = [('R1', {v1, v2}), ('R2', {v3}), ('R3', {v2, v3}), ] 现在作为输出,我想检查RDD值列表是否包含“items”列表的值。我希望我的输出符合以下语法。如果它包含,我们在字典中添加“1”,否则添加“0”作为值,添加items元素作为键 output = [('R1', {v1, 1}),('R1', {v2, 1}), ('R1', {v3,

Pyspark 如何将bigquery表加载到dataproc集群

我是dataproc cluster和PySpark的新手,因此,在寻找将表从bigquery加载到集群的代码的过程中,我遇到了下面的代码,无法弄清楚在这段代码中我应该为我的用例更改哪些内容,以及我们在输入目录中作为输入提供了哪些内容 from pyspark.context import SparkContext from pyspark.sql.session import SparkSession import subprocess sc = SparkContext() spark

使用PySpark中的pandas\u udf平均分配组任务

我有一个Spark数据框,其中包含多组训练数据。每组由“组”列标识 我想为每个组并行地训练一个python ML模型(在我的例子中是lightgbm) 因此,我有以下工作代码: schema = T.StructType([T.StructField("group_id", T.IntegerType(), True), T.StructField("model", T.BinaryType(), True)]) @F.pandas_udf(sch

Pyspark基于时间差的计算场

我有一张这样的桌子: trip_distance | tpep_pickup_datetime | tpep_dropoff_datetime| +-------------+----------------------+----------------------+ 1.5 | 2019-01-01 00:46:40 | 2019-01-01 00:53:20 | trip_distance | tpep_pickup_datetime | tpep_dropoff_

从同一pyspark数据帧的键数组中获取值数组

我的pyspark数据框架如下所示。它有三列 col1:key col2:值 col3:数组\u的\u键 我想添加一个新列col4,其中包含键的值数组。所以它应该像下面给出的第二幅图。有人能帮我找到一个有效的方法吗 现在

Pyspark 在Spark数据帧中执行MapReduce

[数据] 我不明白如何使用pyspark在数据帧上执行mapreduce 我想使用.map(lambda x:(x,1))和reduceByKey(),这将作为 (卖方、日期、计数)例如:(1,3,5) 我已经创建了一个数据帧,但不知道如何继续。请导游 这是我创建的表,day列是从主数据列“tpep\u picku\u datetime”生成的 对于数据帧,您可以使用API,因为pyspark没有允许映射的数据集 pyspark的DF等效值如下: df.groupBy("c1,&quo

在PySpark中插值lat/lon列以获得轨迹中的等间距点

我有一个PySpark数据框,其中包含由“trajectories_id”列标识的不同轨迹的Lat/Lon点。每个轨迹由不同数量的点组成。 下面是一个非常简单的例子。注意,在我的例子中,我可以有更复杂(非直线)的线 轨迹id 纬度 经度 1. 45 5. 1. 45 6. 1. 45 9 2. 46 1. 2. 46 5. 通过使用UDF生成一系列整数,我可以生成您期望的数据。它将在lat和lon的范围内工作(您的样本仅显示lon的范围) def nums(f,t): 返回列表(范围(f、t+1

PySpark如何在SparkSql和数据帧中使用pickle

我试图理解PySpark如何将pickle用于RDD,并避免将其用于SparkSql和数据帧。问题的基础来自链接中的幻灯片#30。我在下面引用它以供参考: “[PySpark]RDD通常是经过pickle处理的对象的RDD。Spark SQL(和数据帧)可以避免这种情况。” pickle是如何在Spark Sql中使用的?在最初的Spark RDD模型中,RDD描述了Java对象或pickle Python对象的分布式集合。但是,SparkSQL“dataframes”(包括Dataset)表示

Pyspark 如何处理多个关键字值,但按第一个关键字减少?

如果我有一个键值对,比如 ('a',1),v1 ('a',2),v2 ('a',3),v3 ('b',1),v4 ('b',2),v5 ('b',3),v6 我怎样才能得到它 ('a',1),v1 ('a',2),v2+v1 ('a',3),v3+v2+v1 ('b',1),v4 ('b',2),v5+v4 ('b',3),v6+v4+v5 利用 flatmap().reducebykey() 看看——你可以做类似的事情。看看——你可以做类似的事情。

从pyspark中的所有列名中删除空格

我是pySpark的新手。我收到了一个csv文件,它有大约1000列。我正在使用数据记录器。大多数这些列之间都有空格,例如总收入、总年龄等。我需要用下划线“\”的空格更新所有列名 我试过这个 克隆的.Columns中的foreachDataColumn c c、 ColumnName=String.Join,c.ColumnName.Split 但是它在Pyspark中对databricks不起作用。有两种方法可以从列名中删除空格: 1.将数据导入到spark数据框时使用架构: 例如: from

Pyspark:如何设置内存和内核的初始设置?

我对spark和pyspark很陌生。我已经在一台linux机器上安装了我所需要的一切,它有12个内核和24g内存 当我尝试使用pyspark运行某个命令时,我注意到只有一个处理器在运行。这就是我为初始化进程所做的事情。可以吗 from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() spark.conf.set('spark.executor.cores', '12') spark.con

Pyspark 机器学习目标列

我的多重分类问题有一个目标列ActionName。目标列有4个唯一值。我需要我的模型来预测ActionName是0、1、2还是3。我发现,我将在其上训练模型的历史数据中,这些值的出现次数不同,而值3恰好是数据的52%,而其他三个值的百分比较小。如何减少目标列中有3作为值的行数?我正在使用Sagemaker笔记本,并使用PySpark运行它

有没有办法在PySpark中进行二项回归?

我正在使用PySpark数据帧,我需要做一个二项回归,每行有多个试验。例如,我的表格如下所示: ┌──────────┬──────────┬─────────────┬────────────┐ │ Features │ # Trials │ # Successes │ # Failures │ ├──────────┼──────────┼─────────────┼────────────┤ │ ... │ 10 │ 4 │ 6

上一页   1   2   3    4   5   6  ... 下一页 最后一页 共 63 页