Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/qt/7.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark pyspark tsv复制列_Apache Spark_Pyspark_Apache Spark Sql_Spark Csv - Fatal编程技术网

Apache spark pyspark tsv复制列

Apache spark pyspark tsv复制列,apache-spark,pyspark,apache-spark-sql,spark-csv,Apache Spark,Pyspark,Apache Spark Sql,Spark Csv,我正在尝试使用spark_csv包读取pyspark中的tsv文件。我的spark版本是1.6.3。在我的数据集中,两列具有相同的名称。我使用以下代码读取数据 temp=sqlContext.read.load(data_file, format='com.databricks.spark.csv', header='true', delimiter='\t', mode='F

我正在尝试使用spark_csv包读取pyspark中的tsv文件。我的spark版本是1.6.3。在我的数据集中,两列具有相同的名称。我使用以下代码读取数据

temp=sqlContext.read.load(data_file,
               format='com.databricks.spark.csv',
               header='true',
               delimiter='\t',
               mode='FAILFAST',
               codec="org.apache.hadoop.io.compress.GzipCodec").cache()
当我使用上述代码阅读时,我得到以下异常:

pyspark.sql.utils.IllegalArgumentException: u"The header contains a duplicate entry: 'member_id' in [member_status, md5_hash_email, member_id, first_name, last_name, email_daily_double, email_personal_coupon_reminder, email_personal_shopping_offers, email_site_wide_sales, email_hot_deals_daily_newsletter, is_referral, traffic_source, traffic_source_type, traffic_source_subtype, signup_date_id, email_domain_group, first_order_date, first_shopping_date, is_mobile, is_tablet, is_pc, first_order_id, member_engaged, last_visit_date, last_order_date, last_shopping_date, total_order_amount, total_commission_amount, total_rebate_amount, total_cash_payments, number_of_cash_payments, life_cycle_stage, total_orders, member_id]"
因此,我想知道是否有办法在开始之前删除重复列。我知道我可以事先指定模式。但我希望它是动态的,这样我就可以在运行时处理任何模式。
谢谢

最近版本的spark中已经修复了此问题-


如果您不能升级,您将不得不自己构造标题。

我知道,但我的问题是我不能使用spark 2.2