Python 如何从pysparksql上的一个大表中选择除2列以外的所有列？_Python_Sql_Apache Spark_Pyspark_Hive - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/304.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/sql/83.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何从pysparksql上的一个大表中选择除2列以外的所有列？_Python_Sql_Apache Spark_Pyspark_Hive - Fatal编程技术网

Python 如何从pysparksql上的一个大表中选择除2列以外的所有列？

python sql apache-spark pyspark hive

Python 如何从pysparksql上的一个大表中选择除2列以外的所有列？,python,sql,apache-spark,pyspark,hive,Python,Sql,Apache Spark,Pyspark,Hive,在连接两个表时，我想从一个大型表中选择除其中2列以外的所有列，该表在databricks上的pyspark sql上有许多列我的pyspark sql： %sql set hive.support.quoted.identifiers=none; select a.*, '?!(b.year|b.month)$).+' from MY_TABLE_A as a left join MY_TABLE_B as b on a.year = b.year and a.mon

在连接两个表时，我想从一个大型表中选择除其中2列以外的所有列，该表在databricks上的pyspark sql上有许多列

我的pyspark sql：

 %sql
 set hive.support.quoted.identifiers=none;
 select a.*, '?!(b.year|b.month)$).+'
 from MY_TABLE_A as a
 left join 
      MY_TABLE_B as b
 on a.year = b.year and a.month = b.month

我跟着

但是，这对我不起作用。所有列都在结果中。我想删除重复的列（结果中的年和月）

感谢使用pyspark，您可以执行以下操作：

df.select([col for col in df.columns if c not in {'col1', 'col2', 'col3'}])

其中df是执行联接操作后产生的数据帧。

设置hive.support.quoted.identifiers=none在Spark中不受支持

相反，在Spark
中，将Spark.sql.parser.quotedRegexColumnNames=true设置为获得与蜂巢相同的行为示例： df=spark.createDataFrame([(1,2,3,4)],['id','a','b','c']) df.createOrReplaceTempView("tmp") spark.sql("SET spark.sql.parser.quotedRegexColumnNames=true") #select all columns except a,b sql("select `(a|b)?+.+` from tmp").show() #+---+---+ #| id| c| #+---+---+ #| 1| 4| #+---+---+ 写下所有列是否会超过最大查询长度？您可以查询系统表以获取列，但这可能不是一个好主意。将它们全部写下来可能需要很长时间，但执行速度要比使用某些系统表来计算列快。查询中的列太多，无法键入这些列。@user3448011，如果答案有助于解决问题的话。。您能否投票并接受关闭此线程的答案！：-）

[sql]相关文章推荐随机文章推荐在moodle中，只向通过测验的学生发送了电子邮件 moodle 无法在moodle中查看自己的配置文件 moodle

[python]相关推荐 Tags Gulp Twitter Bootstrap 3 Extjs Oracle Apex Continuous Integration Google Chrome Bash Google Plus Cloud Foundry Ssrs 2008 Orm Jquery Mobile Spring Batch Sails.js E Commerce Authentication Safari System Verilog Serial Port Vbscript Bazel Xaml Doctrine Orm Ipython Navigation Azure Service Fabric Yii2 Ruby On Rails Map Laravel Collections Dialogflow Es User Interface Embedded Svg Pandas Linker F# Eclipse Rcp Asp.net Discord Twilio Signalr Drupal 7 Ruby On Rails 4 Sencha Touch Rx Java Recursion Gdb Sugarcrm Datetime Hibernate Character Encoding Udp Iphone Data Structures Openlayers Xamarin Seo Salesforce Asp.net Core Nativescript Ansible Deployment Php Couchbase Polymer Lisp Influxdb Composer Php Elm Dynamics Crm Oauth Big O Odoo Unix Windows Phone 8 Concurrency Solr Computer Science Jdbc Llvm Replace Mongoose Ffmpeg Cygwin Proxy Interface Java 8 Smalltalk Apache Nifi Gps Makefile Mfc Google Maps Office365 Tinymce Visual C++ Aws Lambda Android Emulator Ios8 Camera Java Me Websocket Transactions Primefaces Nginx Notifications EmptyTag Command Line Mule Filter Paypal Marklogic Sapui5 Xquery Security Open Source Hive Dynamics Crm 2011 File Io Kendo Ui Resharper Actionscript Memory Build Openerp Angular6 Ssh Identityserver4 Umbraco Vb.net Bison Ios6 Doctrine Input Webview Virtualbox Azure Sql Database Generics Jsp Sparql Cocos2d Iphone Twitter Django Models Multithreading Zsh Iis 7 Symfony Gwt Spring D3.js Http Rest Ssl Jhipster Chef Infra Jersey Plugins Random Teamcity Pycharm Subsonic Imagemagick Google Analytics Meteor Firefox Speech Recognition Notepad++ Apache Kafka Pagination C# 3.0 Eclipse Plugin Install4j Computer Vision Jaxb Vmware Domain Driven Design Binding Loops View .net Core File Upload Sed Microsoft Graph Api Omnet++ Swift3 Matplotlib Office Js Snmp Encryption Plot Apache Camel Iframe Less Path Ipad Variables Prometheus Silverstripe Spring Security

Copyright © 2024. All Rights Reserved by - Fatal编程技术网