Apache spark 使用pyspark解析非结构化数据_Apache Spark_Parsing_Pyspark_Raw Data - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 使用pyspark解析非结构化数据_Apache Spark_Parsing_Pyspark_Raw Data - Fatal编程技术网

Apache spark 使用pyspark解析非结构化数据

apache-spark parsing pyspark

Apache spark 使用pyspark解析非结构化数据,apache-spark,parsing,pyspark,raw-data,Apache Spark,Parsing,Pyspark,Raw Data,我是新手。我正在尝试用以下格式解析非结构化数据整个数据集在一行中每一行/记录由一个特殊字符~$|分隔，记录的每一列由制表符空间分隔那么我如何解析它并将其转换为数据帧呢 Raj India 1000 ~$| John Canada 2000 ~$| Steve USA 3000 ~$| Jason USA 4000 使用spark.read.text（）方法并在选项中保留自定义lineSep spark.read.option("lineSep", '~$|').tex

我是新手。我正在尝试用以下格式解析非结构化数据

整个数据集在一行中

每一行/记录由一个特殊字符~$|分隔，记录的每一列由制表符空间分隔

那么我如何解析它并将其转换为数据帧呢

Raj India 1000 ~$| John Canada 2000 ~$| Steve USA 3000 ~$| Jason USA 4000

使用

spark.read.text（）

方法并在选项中保留自定义lineSep

spark.read.option("lineSep", '~$|').text('<filepath>').withColumn("value",regexp_replace(col("value"),'\n','')).show()
#+------------------+
#|             value|
#+------------------+
#|   Raj India 1000 |
#| John Canada 2000 |
#|   Steve USA 3000 |
#|    Jason USA 4000|
#+------------------+

spark.read.option（“lineSep”和“~$”）.text（“”）.withColumn（“value”），regexp\u replace（col（“value”），“\n”和“”））.show（）
#+------------------+
#|价值观|
#+------------------+
#|印度拉吉1000|
#|约翰加拿大2000|
#|史蒂夫美国3000|
#|杰森美国4000|
#+------------------+

创建数据帧后，使用value column上的

拆分函数，使用.getItem
，element\u at
函数为数据帧创建新列




[parsing]相关文章推荐



                                                        
Parsing Haskell将ByteString转换为UTC时间
parsinghaskelltime 
Parsing 理解阿托帕塞克
parsinghaskell 
Parsing 如何在Scala解析器组合器中组合Regexp和关键字
parsingscala 
Parsing Packrat解析器冲突
parsingscala 
Parsing 在文本文档中查找日期或日期/时间的策略？
parsingdatetimedate 
Parsing java自动更正模式匹配器-给定集合中哪一项最相似？
parsing 
Parsing 在ColdFusion中加密和解密querystring-解析参数和值的结果字符串
parsingcoldfusionencryption 
Parsing 分号作为flex/bison解析的自定义语法中的分隔符
parsingbison 
Parsing EBNF语法到ANTLR3？
parsingantlr 
Parsing 带转义逗号的clojure csv
parsingcsvclojure 
Parsing 如何在haskell中更新关联映射时处理内容
parsinghaskell 
Parsing 计算第一组语法？
parsing 
Parsing Groovy-方法的不明确方法重载
parsinggroovy 
Parsing 如何使用ApacheNutch中的爬行来提取html中specefic div的值？
parsingsolr 
Parsing 解析Json-GoogleApps脚本
parsinggoogle-apps-script 
Parsing Anltr4中的错误恢复和分析树
parsingerror-handlingantlr4 
Parsing 分析安装了NTLM Auth的功能文件时出错
parsingcucumbercypress 
Parsing 使用批处理从txt中删除多个特定行
parsingbatch-filetext 
Parsing strconv.ParseFloat在不应'；T
parsinggofloating-point 
Parsing 在guards haskell中使用大小写表达式时出现分析错误
parsinghaskellfunctional-programming 
                                       





随机文章推荐



                                                        
Xslt XSL模板能否在*ALL*模式下匹配？
xslt 
XSLT，如何仅处理前X项？
xsltrss 
在XSLT中，我怎么能'；t使用xsl:attribute和what'；这是一个好的选择吗？
xsltxpath 
xslt分组问题
xslt 
支持模式的XSLT转换
xslt 
使用XSLT/XPath查找元素在其父元素中的位置
xsltxpath 
使用XSLT检测节点及其后续同级节点之间的空间或文本
xslt 
Xslt XSL:xpath未返回正确的值
xsltabap 
Xslt 包装节点的有序列表
xslt 
Xslt 从文件中检索名称空间列表并添加到XSL文件
xslt 
DITA XSLT-将元标记写入关键字
xslt 
Xslt 基于另一个子节点的值修改子节点
xslt 
XSLT by HEAT更新临时文件，但不'；t在发布目录处筛选文件
xsltwix 
XML1到XML2的XSLT
xslt 
XMLStarlet+；XInclude+；XSLT
xslt 
Xslt 基于属性id值应用模板
xslt 
Xslt 如何通过引用其级别上没有值的节点来获取节点值
xslt 
eXist db/XSLT/Saxon collection（）慢得像糖浆（或内存限制错误）
xsltxquery 
Xslt 如何在SVG文件中用XML标记的值替换所有出现的XML标记
xslt 
删除重复项，同时忽略空白值并在XSLT中添加LineAmount
xslt


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Ssas
Hybris
D
Syntax
Symfony1
Io
Powerbi
Autocomplete
Ipad
Xslt
Sequelize.js
.net Core
Swift3
Twig
Graphql
Caching
Debian
Https
Path
Internationalization
Github
Google Api
Drop Down Menu
Linq To Sql
Google Sheets
Dependency Injection
Websocket
Jvm
Magento2
Indexing
Orm
Apache Camel
Gatsby
Ms Office
Windows Services
Drupal 7
Mariadb
Spring Boot
Processing
Angular6
Stream
Google Chrome
Codeigniter
Qml
Jar
Filter
Notepad++
Plot
Coldfusion
Sparql
Ajax
Hazelcast
Vb6
Meteor
Dojo
Module
Ios6
Android Ndk
Neural Network
Karate
Navigation
Arm
Heroku
Teamcity
Postgresql
Ibm Mobilefirst
Dask
Yocto
Migration
Xamarin.forms
Input
Java 8
Identityserver4
Mapreduce
Grails
Tensorflow
Time Complexity
Amazon Redshift
Swift
Documentation
Instagram
Common Lisp
C++
Bazel
Boost
Google Plus
String
Monitoring
Reference
Gdb
Amp Html
Filesystems
Firebase
Model View Controller
Listview
Jdbc
Windows
Quickbooks
Awk
Sas
Outlook
Routing
Variables
Oracle10g
Multithreading
Class
Camera
Smtp
Openlayers
Google App Maker
Encryption
Gmail
Firefox
Resharper
Cors
Google Drive Api
Visual Studio 2013
Ios8
Visual Studio 2008
Pentaho
Collections
If Statement
Statistics
Makefile
Cucumber
Cookies
Latex
Blockchain
Visual Studio 2015
Exchange Server
Mediawiki
Jquery
Django
Mpi
Sql Server 2005
Ethereum
C# 4.0
Google Compute Engine
Jetty
Jira
Tfs
Atom Editor
Python
Elm
Graphics
Gcc
Data Binding
Actions On Google
Drools
Javascript
Python 2.7
Jquery Plugins
Solr
Compilation
Yii
Erlang
Random
Fiware
Cron
Editor
Teradata
Text
Azure Sql Database
Sql
Safari
Phpunit
Umbraco
Internet Explorer
Azure Active Directory
Stanford Nlp
Office Js
Robotframework
Apache Storm
Devexpress
Xaml
Optimization
Firefox Addon
Domain Driven Design
Generics
Ios7
Gitlab
Apache2
Imagemagick
Google Colaboratory
Highcharts
Aurelia
Isabelle
Virtualbox
Asp.net
Log4net
Unity3d
Go
Postman
Pine Script
Log4j
Protractor
Gridview
Macos
Drupal 6
Weblogic
Eclipse Rcp


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网