Pyspark_IT技术博客_编程技术问答 - 「Fatal编程技术网」

尝试获取随机林中的特征重要性（PySpark）

标签： Pyspark random-forestfeature-selection

我的客户数据有近15k列。我试图在数据上运行RF以减少列数，然后在其上运行其他ML算法我能够在PySpark上运行RF，但无法提取变量的特征重要性任何人有任何关于相同或任何其他技术的线索，可以帮助我将15k变量减少到200多个变量

我有一个txt文件。有一个4列的数据集。第一列的平均值是电话号码。我必须找到相同的电话号码。我的txt文件是这样的 ... 0544147,23,86,40.761650,29.940929 0544147,23,104,40.768749,29.968599 0538333,21,184,40.764679,29.929543 05477900,21,204,40.773071,29.975010 0561554,23,47,40.764694,29.927397 0556645,24,6,4

如何在pyspark dataframe中动态添加列

标签： Pyspark window-functions

我试图添加几个基于输入变量vIssueCols的列 from pyspark.sql import HiveContext from pyspark.sql import functions as F from pyspark.sql.window import Window vIssueCols=['jobid','locid'] vQuery1 = 'vSrcData2= vSrcData' vWindow1 = Window.partitionBy("vKey").orderBy("vOr

Pyspark-每年和每月的平均天数

标签： Pyspark apache-spark-sqlhdfsrddparquet

我有一个存储在hdfs中的CSV文件，格式如下： Business Line,Requisition (Job Title),Year,Month,Actual (# of Days) Communications,1012_Com_Specialist,2017,February,150 Information Technology,5781_Programmer_Associate,2017,March,80 Information Technology,2497_Programmer_Se

Pyspark Jupyter ImportError:尽管安装了py4j，但没有名为py4j.protocol的模块

标签： Pyspark jupyterconda

我读了一些关于导入pyspark时我现在看到的错误的帖子，一些帖子建议导入pyspark，我已经这样做了，但我仍然看到了错误 I am using a conda environment, here is the steps: 1. create a yml file and include the needed packages (including the py4j) 2. create a env based on the yml 3. create a kernel pointing t

使用pyspark将KMS加密的spark数据帧读写到S3存储桶时出现问题

标签： Pyspark

我正在尝试使用Pyspark将Spark数据帧写入AWS S3 bucket，并得到一个异常，即指定的加密方法不受支持。该存储桶具有服务器端加密设置我正在从spark-default.conf运行以下程序包： amazonaws:aws java sdk:1.9.5，org.apache.hadoop:hadoop aws:3.2.0 回顾了这个现有的线程：它提到上面的版本应该支持SSE-KMS加密我还包括core-site.xml以拥有该属性 “fs.s3a.server-side enc

Pyspark 将AWS胶水输出格式化为JSON对象

标签： Pyspark aws-glue

这是我在AWS GLUE的pyspark工作中得到的结果 {a:1,b:7} {a:1,b:9} {a:1,b:3} 但我需要在s3上编写这些数据，并将其发送到JSON数组中的API 格式我尝试将输出转换为DataFrame，然后应用 toJSON（） results=mapped\u dyF.toDF（） jsonResults=results.toJSON（）.collect（）但是现在无法使用“write\u dynamic\u frame.from\u options” 由于它需要

jupyter_client.kernelspec.NoSuchKernel：没有名为PySpark的内核

标签： Pyspark Jupyter Notebook jupyterhub

我试图从命令行执行Jupyter笔记本。我目前正在使用下面链接中提供的docker图像当我尝试在下面的命令行中执行时，它失败了 jupyter nbconvert --to notebook --ExecutePreprocessor.kernel_name=PySpark --ExecutePreprocessor.timeout=3600 --execute notebooks/sample-notebook.ipynb 下面是错误消息 [NbConvertApp] Converti

如何使用PySpark结构流媒体+；卡夫卡

标签： Pyspark Apache Kafka spark-structured-streaming

我试着用kafka使用spark结构流媒体，当我使用spark提交时出现问题，消费者仍然从产品接收数据，但spark结构是错误的。请帮助我查找代码中的问题下面是我在test.py中的代码： from kafka import KafkaProducer from kafka import KafkaConsumer from pyspark.sql import SparkSession spark = SparkSession.builder.appName('stream_test').g

仅更新更改的行pyspark delta表数据块

标签： Pyspark Merge databricksdelta

与创建的数据帧相比，需要只更新现有表中已更改的行。所以现在，我确实减去并得到更改的行，但不确定如何合并到现有表中 old_df = spark.sql("select * from existing table") diff = new_df.subtract(old_df) 现在必须插入差异数据帧（如果是新行）或更新现有记录 (deltaTable.alias("full_df").merge( merge_df.alias("app

Pyspark 我可以在删除旧分区后立即导入更新的分区吗？

标签： Pyspark parquetclickhouse

我有一个名为transactions alias txs（简称transactions alias txs）的表，其中包含1500万行，由txs进行分区。对于过去10年积累的数据，每年大约有100万到150万行。这些数据的来源是一个MySQL数据库，唯一改变的数据是当年的数据。我的策略是设置一个每日CRON作业，以压缩的CSV格式（即20XX-txs.CSV.gz）导出当前年份的所有记录，然后使用AWS Glue/PySpark将其转换为由txs.year分区的snappy.parquet格式

Pyspark 带分离器的分离式Pypspark柱

标签： Pyspark apache-spark-sql

我想用一个点分隔我的Pyspark列。该列是在我从HDFS读取CSV文件时创建的。我使用了下面的代码块 from pyspark.sql import functions as F split_col = F.split(df['File_ID'], '.') df = df.withColumn('File_ID', split_col.getItem(0)) \ .withColumn('csv', split_col.getItem(1)) \ df.show

Pyspark SaveAsTable未从SQL推断架构

标签： Pyspark

我正在尝试通过执行以下操作从SQL查询的输出创建表： sqlContext = HiveContext(self.sc) j = "select a as a1, b as b1, c as c1 from x" df = self.sqlContext.sql(j) df.write.saveAsTable(target_table) 这将使用两列（键和值）保存表，而不是a1、b1、c1列。我想这是因为我没有在这里定义模式。但与不推荐使用的df.saveAsTable（表）使用的方法相同，该

Pyspark数据帧运算符“；不在“中”；

标签： Pyspark

我想把这个从R改写成Pyspark，有什么好看的建议吗 array <- c(1,2,3) dataset <- filter(!(column %in% array)) array在pyspark中，您可以这样做： array = [1, 2, 3] dataframe.filter(dataframe.column.isin(array) == False) 或使用二进制NOT运算符： dataframe.filter(~dataframe.column.isin(array

Pyspark Pypark每周事件的计算

标签： Pyspark pyspark-sql

我试图计算一个单词每周出现的次数。也就是说，本周每个单词是否比前一周更频繁。为此，我有点被卡住了。我做了以下工作： m = sc.parallelize(["oded,12-12-2018", "oded,12-03-2018", "oded,12-12-2018", "oded,12-06-2018", "oded2,12-02-2018", "oded2,12-02-2018"]) m = m.map(lambda line: line.split(','))

Pyspark 列表的最小值

标签： Pyspark

如何找到存储在单元格中的列表的最小值？我可以做一个udf，但这感觉太过分了。pyspark.sql.functions中的min函数仅对组有效（这是groupBy的结果）如果您导入了pyspark.sql.functions，并且包含python的min，您仍然可以使用\uuuuuuuu内置项\uuuuu前缀访问它，例如： min_ = udf(lambda inarr: __builtins__.min(inarr), IntegerType()) 只需排序，然后取第一个值/行 df.s

如何改进pyspark中的.collect（）？

标签： Pyspark pyspark-sql

有没有其他方法可以优化pyspark，从而提高.collect（）的性能我正在使用映射（lambda row:row.asDict（），x.collect（）），对于10K记录，这需要5秒以上的时间。我没有尝试过，但可能 project可以帮助您您可以在收集之前将它们转换为dict，以便以分布式方式工作。x、映射（lambda行：row.asDict（））.collect（）。我认为这应该比收集后做要快。

如何对pyspark中每个组内的变量进行排序？

标签： Pyspark pyspark-sql

我正在尝试为每个id使用另一列ts对值val进行排序 # imports from pyspark.sql import functions as F from pyspark.sql import SparkSession as ss import pandas as pd # create dummy data pdf = pd.DataFrame( [['2',2,'cat'],['1',1,'dog'],['1',2,'cat'],['2',3,'cat'],['2',4,'dog']

如何监视由pyspark启动的任务

标签： Pyspark spark-ui

我正在使用pyspark在集群上运行一些任务。我想查看任务的状态。我认为UI必须默认启动但我无法获得用户界面（大约）。您使用的是纱线还是什么？不，我没有使用纱线

Pyspark 在某些匹配条件下如何左反连接

标签： Pyspark

我有两个表——一个是核心数据，有一对ID（PC1和P2）和一些blob数据（P3）。另一个是前表中PC1的黑名单数据。我将调用_df中的第一个表和第二个黑名单我要做的是从in_df中删除行，只要in_df.PC1==blacklist_df.P1和in_df.P2==black_list_df.B1。下面是一个代码片段，以更明确地显示我想要实现的目标 in_df = sqlContext.createDataFrame([[1,2,'A'],[2,1,'B'],[3,1,'C'], [4,1

Pyspark Spark 2.2.0在将表格加载到DF时无法连接到Phoenix 4.11.0版本

标签： Pyspark Hbase phoenix

我正在使用下面的techstack，并尝试使用PySpark代码连接Phoenix表。我已从url下载了以下JAR，并尝试执行以下代码。在日志中，已建立到hbase的连接，但控制台无法执行任何操作。如果有人遇到并解决了类似问题，请告诉我罐子： phoenix-spark-4.11.0-HBase-1.2.jar phoenix-client.jar 所有技术堆栈均在同一主机上运行： Apache Spark 2.2.0版本 Hbase 1.2版凤凰4.11.0版复制了路径/spark/c

在pyspark中将时间戳转换为特定日期

标签： Pyspark type-conversiontimestampconverter

我想在特定列上转换特定日期的时间戳以下是我的意见： +----------+ |时间戳| +----------+ |1532383202| +----------+ 我所期望的是： +------------------+ |日期| +------------------+ |24/7/2018 1:00:00 | +------------------+ 如果可能的话，我想把分和秒设置为0，即使它不是0 例如，如果我有： +------------------+ |日期| +-----

Pyspark-通过忽略空值计算组后的最小值

标签： Pyspark pyspark-sql

Pyspark：获取时间窗口之间的行数

标签： Pyspark

我有一些这种格式的数据：用户id |日期|应用程序|已打开 123 | 2018-09-01 | 1 123 | 2018-09-01 | 1 123 | 2018-09-01 | 1 234 | 2018-08-23 | 1 234 | 2018-08-23 | 1 234 | 2018-08-21 | 1 234 | 2018-08-10 | 1 我正在尝试获取一天内打开的应用程序数，以及从当天开始的上周打

绘制一个非常巨大的pyspark柱的柱状图

标签： Pyspark

相关问题：我有一个很长的专栏，我无法将其转换为熊猫，正如上面主题spark耗尽内存所建议的那样如何绘制此列的直方图？您应该能够从随机抽样的数据子集中获得具有代表性的直方图。可能从1%开始，如下所示： dfs = df.sample(withReplacement=False, fraction=0.01, seed=None).toPandas() 然后查看内存是否允许dfs.hist 在数据科学的许多应用中，对大型列和数据帧进行下采样是完全合法的，尽管在寻找罕见事件时可能会遇到麻烦。在s

Pyspark 使用Python在Databricks中增强XGBoost

标签： Pyspark xgboostdatabricks

因此，最近我一直在使用Mlib Databricks群集，并看到我的群集版本（5.1）可以使用“根据文档”。这个集群正在运行Python 2 我觉得XGBoost4J只适用于Scala和Java所以我的问题是：如何将xgboost模块导入到这个环境中而不丢失分发功能？下面是我的代码示例 from pyspark.ml import Pipeline from pyspark.ml.feature import StringIndexer from pyspark.ml.feature impo

我可以通过pyspark在Spark中使用L-BFGS优化器吗？

标签： Pyspark

我想在PySpark中用python创建我自己的估计器。我想使用的L-BFGS优化算法，以适应或任何其他优化算法可用。如何通过pyspark访问这些优化算法？是否有一个示例显示了这是如何实现的？来自pyspark.mllib.classification导入逻辑回归与LBFGS 来自pyspark.mllib.classification导入逻辑回归与LBFGS 你最终弄明白了吗？我可以在scala中使用breeze数字处理库来实现这一点，但不确定如何在python中实现。我无法在pyth

Pyspark 如何筛选语言的Wikidata转储？

标签： Pyspark apache-spark-sql Rdf wikidata

我已经下载了RDF格式的Wikidata truthy转储（.nt.bz2文件）。我想将转储的语言限制为英语，并将这个新的过滤转储生成为一个新的.nt文件我曾尝试使用并行grep来过滤带有“@en”文本的行，但这会消耗大量的处理时间是否有更快的方法生成过滤转储？类似于使用Spark的东西？对您来说可能有点晚了，但同时生成了一个工具来创建自定义转储：使用此工具，您可以在线定义语言筛选器，然后下载一个仅包含相关三元组的.nt文件。可能对您来说有点晚了，但同时生成了一个创建自定义转储的工具：使

如何使用pyspark递归地获取存储在dbfs文件夹中的Excel文件？

标签： Pyspark apache-commons-dbutils

我在dbfs中安装了一个路径，我需要从给定文件夹中提取Excel文件路径，同一文件夹包含Excel文件或包含Excel文件的子文件夹。当前代码仅提供一个文件夹中的Excel文件，而不提供子文件夹中的Excel文件 files = dbutils.fs.ls('/raw/internal/srange/2018_11_30_00_22_11/') for file in files: if file.path.endswith('xlsx'): path = '/dbfs' + fil

Pyspark AWS EMR中的火花步进失败，exitCode 13

标签： Pyspark amazon-emr

我正在尝试EMR，我试着运行一个非常简单的spark程序 from pyspark.sql.types import IntegerType mylist = [1, 2, 3, 4] df = spark.createDataFrame(mylist, IntegerType()).show() df.write.parquet('/path/to/save', mode='overwrite') 我通过在AWS EMR web控制台中添加一个步骤来启动应用程序我从s3选择deploy mo

Pyspark 用高低不平的柱子连接

标签： Pyspark

我有两个数据帧，其结构如下： |来源|#用户|#点击|小时|类型及类型|总#用户|小时我想根据小时加入这些列，但是第一个数据帧在第二个数据帧中的粒度更深，因此有更多的行。基本上我想要一个数据帧，我有 |来源|#用户|#点击|小时|类型|总#用户其中，总用户数来自第二个数据帧。有什么建议吗？我想我可能想用地图编辑：这里有一个例子 DF1 DF2 结果 |Source|#Users|#Clicks|Hour|Type |Total #Users |Prod1 |50 |3

pyspark数据帧的数据类型中的不同计数

标签： Pyspark pyspark-dataframes

我需要一个函数在PypPark数据帧中获得类似的内容：变量类型：数字：4 类别：4 日期：1让我们在Pyspark Shell中创建一个虚拟数据帧 rdd=sc.parallelize（[[x'，1，'y'，2,1.1]]） >df=spark.createDataFrame（rdd，模式=['Col1'，'Col2'，'Col3'，'Col4'，'Col5']）以下是df的列类型 >>df 数据帧[Col1:string，Col2:bigint，Col3:string，Col4:bigi

Pyspark文件系统fs.listStatus（sc._jvm.org.apache.hadoop.fs.Path（Path））只返回第一个子目录

标签： Pyspark hdfs

我想在Pyspark中递归地遍历给定的hdfs路径，而不使用hadoop fs-ls[path]。我尝试了建议的解决方案，但发现listStatus（）仅返回给定路径中第一个子目录的状态。根据，如果路径是目录，listStatus应返回“给定路径中文件/目录的状态”。我缺少什么我使用的是Hadoop 2.9.2、Spark 2.3.2和Python 2.7。我无法准确地重新创建场景，但我认为这与以下事实有关：如果路径不是目录，listStatus（）在该路径上，将返回一个长度为1的列表，其中仅

使用Pyspark在数据帧的不同列上提取多个平均值和移动平均值

标签： Pyspark databricks

我有一个数据框，如下所示：我想计算并创建具有以下功能的新列：过去1天内质量/强度的平均值/移动平均值过去2天内质量/强度的平均值/移动平均值过去5天内质量/强度的平均值/移动平均值过去1周内质量/强度的平均值/移动平均值过去两周内质量/强度的平均值/移动平均值过去1个月内质量/强度的平均值/移动平均值请告诉我如何在pyspark中实现这一点。您可以使用group by子句中的窗口来指定聚合的天数 from pyspark.sql.window import Window f

如何使用Pyspark将flatmap与Dataframe中的多列一起使用

标签： Pyspark pyspark-sqlpyspark-dataframes

我的DF如下所示： Name city starttime endtime user1 London 2019-08-02 03:34:45 2019-08-02 03:52:03 user2 Boston 2019-08-13 13:34:10 2019-08-13 15:02:10 我想检查endtime，如果它跨越到下一个小时，则使用当前小时的最后一分钟/秒更新当前记录，并附加另一行或多行类似数据，如下图所

如何检查RDD在pyspark中是否包含列表元素？

标签： Pyspark rdd

我有一个包含以下值的列表 items = [v1,v2,v3] 我有一个RDD，下面是行 RDD = [('R1', {v1, v2}), ('R2', {v3}), ('R3', {v2, v3}), ] 现在作为输出，我想检查RDD值列表是否包含“items”列表的值。我希望我的输出符合以下语法。如果它包含，我们在字典中添加“1”，否则添加“0”作为值，添加items元素作为键 output = [('R1', {v1, 1}),('R1', {v2, 1}), ('R1', {v3,

Pyspark 实例化'时出错；org.apache.spark.sql.hive.HiveExternalCatalog'；

标签： Pyspark Hive

我无法从Pyspark运行配置单元查询我试图将hive-site.xml复制到spark的conf中，但尽管如此，它还是抛出了同样的错误完全错误 Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/usr/local/spark-2.4.0/python/pyspark/sql/context.py", line 358, in sql return

Pyspark 如何将bigquery表加载到dataproc集群

标签： Pyspark jupyter-labgoogle-cloud-dataproc

我是dataproc cluster和PySpark的新手，因此，在寻找将表从bigquery加载到集群的代码的过程中，我遇到了下面的代码，无法弄清楚在这段代码中我应该为我的用例更改哪些内容，以及我们在输入目录中作为输入提供了哪些内容 from pyspark.context import SparkContext from pyspark.sql.session import SparkSession import subprocess sc = SparkContext() spark

使用PySpark中的pandas\u udf平均分配组任务

标签： Pyspark user-defined-functions

我有一个Spark数据框，其中包含多组训练数据。每组由“组”列标识我想为每个组并行地训练一个python ML模型（在我的例子中是lightgbm）因此，我有以下工作代码： schema = T.StructType([T.StructField("group_id", T.IntegerType(), True), T.StructField("model", T.BinaryType(), True)]) @F.pandas_udf(sch

Pyspark基于时间差的计算场

标签： Pyspark apache-spark-sql

从同一pyspark数据帧的键数组中获取值数组

标签： Pyspark key-valueexplode

我的pyspark数据框架如下所示。它有三列 col1:key col2：值 col3：数组\u的\u键我想添加一个新列col4，其中包含键的值数组。所以它应该像下面给出的第二幅图。有人能帮我找到一个有效的方法吗现在

在pyspark中如何从出生日期计算年龄？

标签： Pyspark

我正在计算pyspark中出生日期的年龄： def run(first): out = spark.sql(""" SELECT p.birth_date, FROM table1 p LEFT JOIN table2 a USING(id) LEFT JOIN table2 m ON m.id = p.id LEFT JOIN table4 i US

Pyspark 在Spark数据帧中执行MapReduce

标签： Pyspark Mapreduce

[数据] 我不明白如何使用pyspark在数据帧上执行mapreduce 我想使用.map（lambda x:（x，1））和reduceByKey（），这将作为（卖方、日期、计数）例如：（1,3,5）我已经创建了一个数据帧，但不知道如何继续。请导游这是我创建的表，day列是从主数据列“tpep\u picku\u datetime”生成的对于数据帧，您可以使用API，因为pyspark没有允许映射的数据集 pyspark的DF等效值如下： df.groupBy("c1,&quo

在PySpark中插值lat/lon列以获得轨迹中的等间距点

标签： Pyspark interpolationshapely

我有一个PySpark数据框，其中包含由“trajectories_id”列标识的不同轨迹的Lat/Lon点。每个轨迹由不同数量的点组成。下面是一个非常简单的例子。注意，在我的例子中，我可以有更复杂（非直线）的线轨迹id 纬度经度 1. 45 5. 1. 45 6. 1. 45 9 2. 46 1. 2. 46 5. 通过使用UDF生成一系列整数，我可以生成您期望的数据。它将在lat和lon的范围内工作（您的样本仅显示lon的范围） def nums（f，t）：返回列表（范围（f、t+1

PySpark如何在SparkSql和数据帧中使用pickle

标签： Pyspark spark-dataframepicklepyspark-sql

我试图理解PySpark如何将pickle用于RDD，并避免将其用于SparkSql和数据帧。问题的基础来自链接中的幻灯片#30。我在下面引用它以供参考： “[PySpark]RDD通常是经过pickle处理的对象的RDD。Spark SQL（和数据帧）可以避免这种情况。” pickle是如何在Spark Sql中使用的？在最初的Spark RDD模型中，RDD描述了Java对象或pickle Python对象的分布式集合。但是，SparkSQL“dataframes”（包括Dataset）表示

Pyspark 如何处理多个关键字值，但按第一个关键字减少？

标签： Pyspark

如果我有一个键值对，比如 ('a',1),v1 ('a',2),v2 ('a',3),v3 ('b',1),v4 ('b',2),v5 ('b',3),v6 我怎样才能得到它 ('a',1),v1 ('a',2),v2+v1 ('a',3),v3+v2+v1 ('b',1),v4 ('b',2),v5+v4 ('b',3),v6+v4+v5 利用 flatmap().reducebykey() 看看——你可以做类似的事情。看看——你可以做类似的事情。

从pyspark中的所有列名中删除空格

标签： Pyspark

我是pySpark的新手。我收到了一个csv文件，它有大约1000列。我正在使用数据记录器。大多数这些列之间都有空格，例如总收入、总年龄等。我需要用下划线“\”的空格更新所有列名我试过这个克隆的.Columns中的foreachDataColumn c c、 ColumnName=String.Join，c.ColumnName.Split 但是它在Pyspark中对databricks不起作用。有两种方法可以从列名中删除空格： 1.将数据导入到spark数据框时使用架构：例如： from

Pyspark：如何设置内存和内核的初始设置？

标签： Pyspark

我对spark和pyspark很陌生。我已经在一台linux机器上安装了我所需要的一切，它有12个内核和24g内存当我尝试使用pyspark运行某个命令时，我注意到只有一个处理器在运行。这就是我为初始化进程所做的事情。可以吗 from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() spark.conf.set('spark.executor.cores', '12') spark.con

Pyspark 机器学习目标列

标签： Pyspark apache-spark-sqlreduce

我的多重分类问题有一个目标列ActionName。目标列有4个唯一值。我需要我的模型来预测ActionName是0、1、2还是3。我发现，我将在其上训练模型的历史数据中，这些值的出现次数不同，而值3恰好是数据的52%，而其他三个值的百分比较小。如何减少目标列中有3作为值的行数？我正在使用Sagemaker笔记本，并使用PySpark运行它

有没有办法在PySpark中进行二项回归？

标签： Pyspark Statistics apache-spark-mllibglm

我正在使用PySpark数据帧，我需要做一个二项回归，每行有多个试验。例如，我的表格如下所示： ┌──────────┬──────────┬─────────────┬────────────┐ │ Features │ # Trials │ # Successes │ # Failures │ ├──────────┼──────────┼─────────────┼────────────┤ │ ... │ 10 │ 4 │ 6