Python 在Spark中使用标点符号的未闭合字符类_Python_Apache Spark_Pyspark - Fatal编程技术网

Python 在Spark中使用标点符号的未闭合字符类

python apache-spark pyspark

Python 在Spark中使用标点符号的未闭合字符类,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,我正在尝试构建一个正则表达式模式，它将从字符串中删除标点符号。我决定使用字符串库中的标点符号。但是，当我执行它时，Spark返回一个错误，即有一个未闭合字符我怀疑标点符号中的字符在执行过程中会关闭引号。我有一种感觉，这应该是简单的修复，但我不知道如何。我的代码如下： from pyspark.sql.functions import regexp_replace, trim, col, lower import string def removePunctuation(column):

我正在尝试构建一个正则表达式模式，它将从字符串中删除标点符号。我决定使用

字符串库中的标点符号。但是，当我执行它时，Spark返回一个错误，即有一个未闭合字符
我怀疑标点符号
中的字符在执行过程中会关闭引号。我有一种感觉，这应该是简单的修复，但我不知道如何。我的代码如下：
from pyspark.sql.functions import regexp_replace, trim, col, lower
import string

def removePunctuation(column):

    no_punct = regexp_replace(column, string.punctuation, '')
    lowered = lower(no_punct)
    cleaned = strip(lowered)
    return cleaned

我得到这个错误org.apache.spark.SparkException:作业由于阶段失败而中止：阶段86.0中的任务0失败了1次，最近的失败：阶段86.0中的任务0.0丢失（TID 3709，localhost）：java.util.regex.PatternSyntaxException:索引31附近未关闭的字符类
regexp_replace(column, "\p{Punct}", "")

要使用字符串.标点符号
，您必须对单个字符进行转义并将其放入字符集中，但这很容易出错，而且很难看：
import re

regexp_replace(column, "[{0}]".format(re.escape(string.punctuation)), "")

请注意，下划线被视为合法的字母数字字符，因此需要特别删除。
您可能只需要包含您想要的内容：数字、字母和空格
return lower(trim(regexp_replace(regexp_replace(column, '[^\w\s]', ''),'_','')))

真是太棒了。你在哪里找到的？
return lower(trim(regexp_replace(regexp_replace(column, '[^\w\s]', ''),'_','')))




[apache spark]相关文章推荐



                                                        
Apache spark Spark SQL数据帧外部数据源效率低
apache-spark 
Apache spark 如何修复AWS EMR Spark和齐柏林飞艇版本不匹配？
apache-spark 
Apache spark 使用Spark中的DataFrameWriter更改输出文件数
apache-spark 
Apache spark spark 1.3对hbase的读写
apache-sparkhbase 
Apache spark 加载拼花地板文件时无法推断架构
apache-sparkpyspark 
Apache spark Spark数据帧十进制精度
apache-spark 
Apache spark 使用自定义spark版本启动Oozie作业
apache-spark 
Apache spark pyspark中的Lambda函数不适用于python代码
apache-sparkmachine-learningpyspark 
Apache spark 将具有StructField类型的coulmn添加到pyspark中的数据帧
apache-sparkdataframepyspark 
Apache spark java.lang.NoSuchMethodError:org.apache.avro.Schema.getLogicalType（）Lorg/apache/avro/LogicalType；基于Avro数据的结构化流媒体
apache-sparkapache-kafka 
Apache spark ContextCleaner：清洁蓄电池在scala spark中意味着什么？
apache-spark 
Apache spark 将JSON字符串列拆分为多个列
apache-sparkhadooppyspark 
Apache spark Py4JNetworkError:尝试连接到Java服务器时出错（127.0.0.1:43184）
apache-sparkpysparkjupyter-notebook 
Apache spark spark联接性能：多列与单列
apache-spark 
Apache spark 在一个spark流媒体应用程序中有两个updatestatebykey（）吗？
apache-sparkpyspark 
Apache spark DataFrame.withColumn（）使用管道的costomized UDF工作得非常慢
apache-sparkpyspark 
Apache spark Kafka pyspark流：KafkaException:无法构造Kafka使用者
apache-sparkpysparkapache-kafka 
Apache spark SparkException:任务在写入行时失败，原因是：无法执行HTTP请求：读取超时
apache-sparkamazon-s3 
Apache spark spark读取包含多个新字符的文本
apache-spark 
Apache spark 如何理解Xgboost模型转储
apache-spark 
                                       





随机文章推荐



                                                        
Stored procedures ibmi上的外部存储过程
stored-proceduresibm-midrange 
Stored procedures 多值存储过程参数只是一种糟糕的做法吗？
stored-proceduresparameters 
Stored procedures 为什么要编写create/replace来在PL/SQL中创建过程
stored-proceduressyntaxplsql 
Stored procedures SQL中的存储过程
stored-procedures 
Stored procedures DB2存储过程：为游标动态构建Select语句
stored-proceduresdb2 
Stored procedures WITH RETURN子句在DB2中有什么用途？
stored-procedurescrystal-reportsdb2 
Stored procedures 在Neo4j REST API上使用TIMESTAMP（）
stored-proceduresneo4j 
Stored procedures 带空参数的SQL Server全文搜索-性能命中
stored-proceduressql-server-2012 
Stored procedures 执行存储过程后有时返回奇怪的值
stored-proceduresspring-integration 
Stored procedures ANSI SQL中的“创建触发器”和“创建过程”操作
stored-procedurestriggers 
Stored procedures [Amazon]（500310）无效操作：未终止的美元报价字符串位于或接近"$$
stored-proceduresamazon-redshift 
Stored procedures Teradata—存储过程中的While循环不'；行不通
stored-proceduresteradata


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
如何组织python测试，使我可以在一个命令中运行所有测试？
									Python
							 									Unit Testing
							 
内置的'；操作员'；模块在python中可以使用吗？
									Python
							 
Python装饰器的一些常见用途是什么？
									Python
							 
Python 带有命令行参数的Nose测试脚本
									Python
							 
在Python中，如果它等于某个值，如何循环遍历字典并更改该值？
									Python
							 									Dictionary
							 
Python socket.accept错误24:对许多打开的文件
									Python
							 									Exception
							 									File
							 									Sockets
							 
Python 如何使用数据帧中的matplotlib绘制此类型的直方图
									Python
							 									Pandas
							 									Matplotlib
							 
在Python中编辑间距
									Python
							 
Python 类中的外部词典阅读行为
									Python
							 
Python 如何确定存储在文件中的最大拼字分数？
									Python
							 
Python 如何使用用户输入附加列表
									Python
							 									Python 3.x
							 									List
							 									Loops
							 									Input
							 
Python 如何提取以.000结尾的所有值并打印它们？
									Python
							 
如何制作一个可以用Python存储用户输入的字典？
									Python
							 									Python 2.7
							 
如何让python警报在后台运行而不让应用程序等待它？
									Python
							 
Python pandas将字符串的类别转换为数字作为一个对象，但得到一个数字数组
									Python
							 									Python 3.x
							 									Pandas
							 									Dataframe
							 
Python 从图形边列表创建嵌套dict
									Python
							 
Python 组合数组以生成新的集合数组
									Python
							 									Arrays
							 									Numpy
							 
Python 我正在尝试刮取，但我的命令提示符没有打印任何内容。我做错了什么？
									Python
							 
Python 如何安装TensoFlow 2的最新版本？
									Python
							 									Tensorflow
							 									Pip
							 
Python 文本文件从txt文件读取输入变量
									Python
							 									Python 3.x
							 									File
							 
Python 查找列表中多个集合之间的交集
									Python
							 									String
							 
Python:Selenium Chrome驱动程序打开空白页--已解决--
									Python
							 									Selenium
							 
Python 计算df的平均值，但如果=>；其中1个值不同>；根据该平均值的20%，将平均值设置为NaN
									Python
							 									Pandas
							 
Python 替换除两位数之间的所有连字符
									Python
							 									Regex
							 
Python 打印时从datetime64[ns]列中删除的时间信息
									Python
							 									Pandas
							 									Dataframe
							 
Python 如何使其他输入工作，它只显示第一个选择的结果
									Python
							 
Python 为什么不是'；pygame渲染我所有的精灵？
									Python
							 									Python 3.x
							 
如何在python中加快while循环？
									Python
							 
Python 使用pd.eval（）方法获取NotImplementedError
									Python
							 									Pandas
							 
Python 根据另一列的日期和类别创建数据排名
									Python
							 									Pandas
							 									Dataframe
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Stm32
Haskell
Azure Sql Database
Typo3
Qml
Logstash
Windows Runtime
Angular Material
Iis 7
Web Applications
Ssis
Perforce
Prestashop
Jar
Yocto
Vim
Ibm Cloud
Sql Server 2008
Xna
Codeigniter
Formatting
Lotus Notes
Hyperlink
Abap
Opencv
Ruby On Rails 3.1
Checkbox
Wordpress
Bison
Omnet++
For Loop
Alfresco
Windows Store Apps
Spring Security
Wso2
Tsql
Activerecord
Automated Tests
Ibm Mobilefirst
Dialogflow Es
Svn
Identityserver4
Raspberry Pi
Operating System
Jaxb
Google Chrome Devtools
Mapreduce
Lisp
Html
Erlang
Qt4
Netlogo
Office365
Google Bigquery
Bluetooth
Loopbackjs
Sharepoint 2007
Workflow
Robotframework
Docker Compose
Directx
Migration
Arrays
Smtp
Ios8
3d
Amazon Web Services
Sip
Hbase
Dataframe
Jsf 2
Material Ui
Variables
Cron
Prolog
Gstreamer
Tags
Security
Jwt
Electron
Exception Handling
Streaming
Notepad++
Discord.js
Stata
If Statement
Quickbooks
Google Cloud Firestore
Vhdl
Air
Types
Clang
Amazon S3
Arm
Mysql
Windbg
Asp.net Mvc 2
Url Rewriting
Mongoose
Angular6
Data Binding
Autodesk Forge
Rest
Jquery Ui
Android Ndk
Sequelize.js
Grails
Image
Ecmascript 6
Nestjs
Vector
Spring Integration
Three.js
Pointers
Graphviz
Logging
Yii2
Ios
Cakephp
Lucene
Bots
Angularjs
Phpstorm
Input
Visual Studio 2017
Asp.net
Ms Office
Cocoa
Sencha Touch 2
Excel Formula
Magento2
Centos
Youtube
Installation
Uiview
Flask
Wxpython
Sails.js
Class
Opencart
Design Patterns
Open Source
Scala
Ruby On Rails 4
Less
Proxy
Synchronization
EmptyTag
Matrix
Unicode
Floating Point
Macros
Cloud
Requirejs
Makefile
Directory
Combobox
Github
Apache Camel
Eclipse Rcp
Keyboard
Coq
Functional Programming
Pip
Xaml
Ckeditor
Charts
Gulp
Maven
Tabs
Webgl
Internet Explorer
Javafx 2
Pascal
Extjs4
Ssh
String
Opengl Es
Collections
Shopify
Mod Rewrite
Gwt
Nhibernate
Fortran
Wpf
Single Sign On
Linq To Sql
Adobe
Aws Lambda
Windows Phone 7
Modelica
Cocos2d Iphone
Ember.js
Websocket
Ada
Dojo
Kotlin
Random
.net
Socket.io
Phpmyadmin


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网