Apache spark 可以使用相同的代码读取csv或拼花文件_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 可以使用相同的代码读取csv或拼花文件_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Apache spark 可以使用相同的代码读取csv或拼花文件

apache-spark pyspark

Apache spark 可以使用相同的代码读取csv或拼花文件,apache-spark,pyspark,apache-spark-sql,Apache Spark,Pyspark,Apache Spark Sql,是否有人知道是否可以使用相同的代码将csv或拼花地板文件读入spark 我在这里的用例是，在生产中，我将使用大型拼花文件，但对于单元测试，我希望使用CSV。我使用的代码如下： spark.read().schema(schema).load(path); 在CSV情况下，此操作失败，但出现以下例外情况： file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [78, 9,

是否有人知道是否可以使用相同的代码将csv或拼花地板文件读入spark

我在这里的用例是，在生产中，我将使用大型拼花文件，但对于单元测试，我希望使用CSV。我使用的代码如下：

spark.read().schema(schema).load(path);

在CSV情况下，此操作失败，但出现以下例外情况：

file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [78, 9, 78, 10]

我怀疑spark默认为拼花地板，这不起作用，但我想先检查一下未提及格式（）
则spark默认读取

拼花地板文件
如果您正在阅读csv文件，那么我们需要提及.format（“csv”）以让spark知道我们正在尝试读取csv文件，否则spark会将该文件读取为拼花
spark.read.format（“csv”）.schema（schema）.load（path）
您的路径形式是什么？不管怎样，我认为你应该设置格式。我有一个类似的用例。我认为spark现在应该有一种机制来检测文件的类型（CSV、拼花），并使用单个API读取文件：/




[pyspark]相关文章推荐



                                                        
PySpark：使用条件筛选数据帧
pyspark 
Pyspark-Sql filter-通过检查数组中是否显示id值来选择所有行
pyspark 
Pyspark 在两列和一个指示符之间生成所有可能的组合，以显示源表中是否存在该组合
pyspark 
将DF列转换为列表时出现PySpark错误
pyspark 
pyspark Regexp_Extract-从字符串列中提取多个单词
pyspark 
pyspark dataframe when和multiple Others子句
pyspark 
Pyspark UDF-如何返回多个可能的类型？
pyspark 
Pyspark 确定每个产品对的联合会话数
pyspark 
在Dataproc中运行PySpark时发生ModuleNotFoundError
pysparkgoogle-cloud-storage 
如何从pyspark中的一列创建数据帧？
pyspark 
使用pycharm在本地运行pyspark
pyspark 
如何从pyspark的dataframe中删除空列
pyspark 
Pyspark 关系化json深层嵌套数组
pyspark 
Pyspark 在Spark数据帧的列表中查找最大值
pyspark 
Pyspark 如何在写入数据帧时从列名中删除双引号
pyspark 
PySpark-Databricks中的集群实例概要文件
pyspark 
Pyspark将字符串列转换为整数、数字列
pyspark 
Pyspark 如何在Palantir Foundry中合并多个动态输入？
pysparkdynamic 
Pyspark 齐柏林飞艇完成一个过程后，有没有办法运行一个单独的笔记本？
pyspark 
Pyspark AWS Glue create_dynamic_frame from_catalog返回不在架构中的列
pyspark 
                                       





随机文章推荐



                                                        
本地主机上UDP协议的可靠性
udpkernel 
使用RTSP/UDP，服务器如何知道在哪里发送回复？
udp 
在openvpn上运行netperf udp流时出错
udp 
UDP多播客户端看不到tcpreplay生成的UDP多播流量
udp 
通过以太网向fpga spartan 3e发送UDP数据包
udp 
对于多线程服务器，TCP是否优于UDP？
udp 
使用IPv6丢弃的超过MTU大小的UDP数据报
udp 
Udp RTP数据包的最大大小？
udp 
WiFi上的ESP32 UDP数据包接收延迟
udp 
来自发送端的iperf3 udp静默间隙
udp


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Url
Paypal
Facebook Graph Api
Racket
Hash
Compilation
Umbraco
Calendar
Oracle10g
Datatables
Applescript
Animation
Websphere
Sed
Module
Smtp
Nestjs
Prolog
D3.js
Model View Controller
Xquery
Elixir
Pointers
Optimization
Artifactory
Yii
Testng
Python 2.7
Azure Functions
Jquery Mobile
Directory
Properties
Excel
Web Applications
Kendo Ui
Vba
Jwt
Mpi
Formatting
Atom Editor
Windows 8
Memory Leaks
Gremlin
Shopify
Network Programming
Extjs
Linux Kernel
Spotify
Jira
Sap
Pip
Frameworks
Io
Google Cloud Platform
Android
Jms
Version Control
Google App Maker
Android Studio
Zsh
Internationalization
Gstreamer
Wcf
Maps
Python Sphinx
Multithreading
Tinymce
Spring Mvc
Entity Framework Core
Intellij Idea
Latex
Windows 10
Ethereum
Twilio
Xaml
Graph
Apache Zookeeper
Ide
Google Cloud Storage
Nsis
Sonarqube
Xsd
Regex
Ftp
Notepad++
Servlets
Embedded
Ibm Mobilefirst
Gcc
Aem
Sip
Asp.net Mvc 2
Cocos2d Iphone
Ionic Framework
C++ Cli
Biztalk
Firefox Addon
Ipad
Com
Cryptography
Rx Java
Twitter
Rust
Url Rewriting
Coding Style
Aws Lambda
Protocol Buffers
Debian
Scala
Highcharts
Loops
Apache Kafka
Inheritance
Keycloak
Silverlight 4.0
Kibana
Google App Engine
Azure Service Fabric
Log4j
Utf 8
Big O
Air
Sphinx
Memory
Xamarin.android
Date
Xmpp
Mod Rewrite
Doctrine Orm
Ubuntu
Resharper
Hibernate
Ruby On Rails
Google Bigquery
Struct
Memory Management
Crystal Reports
Objective C
Windows Installer
Web Scraping
Functional Programming
Openshift
Html5 Canvas
Here Api
Compiler Errors
Hyperlink
Vb6
Doctrine
Ruby On Rails 3.1
Dom
Routing
Flutter
Exception Handling
Google Visualization
Visual Studio 2015
Jupyter Notebook
Unit Testing
Android Layout
Powerbi
Ip
Migration
Dialogflow Es
Continuous Integration
Jquery Plugins
Math
.net 4.0
Gtk
Ocaml
Oracle
Xcode4
Plot
Cuda
Cygwin
Safari
Model
Heroku
Fluent Nhibernate
Ldap
Makefile
Import
Dns
Sails.js
Elm
Jboss
Apache Spark
Laravel 5
System Verilog
Visual Studio
Cmake
Dask
Chef Infra
Tcp
Isabelle
Jasmine
Junit
Webpack
.htaccess
Arm
Mips
Windows Runtime
Winforms


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网