Pyspark:替换dataframe列中的变音字符

Pyspark:替换dataframe列中的变音字符,pyspark,Pyspark,我正在尝试替换pyspark列中的所有变音字符。我有一个元组列表,第一个元素是要替换的字符,第二个元素是要替换的字符。如果我一次调用一个元组,这个方法非常有效。这是我的代码 def Str_Substitution(data_prep_output): # Load Data DATA_INPUT_DF = data_prep_output # Set up character substitutions, use '?' if character is not in this list

我正在尝试替换pyspark列中的所有变音字符。我有一个元组列表,第一个元素是要替换的字符,第二个元素是要替换的字符。如果我一次调用一个元组,这个方法非常有效。这是我的代码

def Str_Substitution(data_prep_output):

# Load Data 
DATA_INPUT_DF = data_prep_output

# Set up character substitutions, use '?' if character is not in this list
chr_replacements = [
(u'Á', 'A'), (u'Ă', 'A'), (u'Ắ', 'A'), (u'Ặ', 'A'), (u'Ằ', 'A'), (u'Ẳ', 'A'), (u'Ẵ', 'A'), \
(u'Ǎ', 'A'), (u'Â', 'A'), (u'Ấ', 'A'), (u'Ậ', 'A'), (u'Ầ', 'A'), (u'Ẩ', 'A'), (u'Ẫ', 'A'), \
(u'Ä', 'A'), (u'Ǟ', 'A'), (u'Ȧ', 'A'), (u'Ǡ', 'A'), (u'Ạ', 'A'), (u'Ȁ', 'A'), (u'À', 'A'), \
(u'Ả', 'A'), (u'Ȃ', 'A'), (u'Ā', 'A'), (u'Ą', 'A'), (u'Å', 'A'), (u'Ǻ', 'A'), (u'Ḁ', 'A'), \
(u'Ⱥ', 'A'), (u'Ã', 'A'), (u'Ꜳ', 'AA'), (u'Æ', 'AE'), (u'Ǽ', 'AE'), (u'Ǣ', 'AE'), (u'Ꜵ', 'AO'), \
(u'Ꜷ', 'AU'), (u'Ꜹ', 'AV'), (u'Ꜻ', 'AV'), (u'Ꜽ', 'AY'), (u'Ḃ', 'B'), (u'Ḅ', 'B'), (u'Ɓ', 'B'), \
(u'Ḇ', 'B'), (u'Ƀ', 'B'), (u'Ƃ', 'B'), (u'Ć', 'C'), (u'Č', 'C'), (u'Ç', 'C'), (u'Ḉ', 'C'), \
(u'Ĉ', 'C'), (u'Ċ', 'C'), (u'Ƈ', 'C'), (u'Ȼ', 'C'), (u'Ď', 'D'), (u'Ḑ', 'D'), (u'Ḓ', 'D'), \
(u'Ḋ', 'D'), (u'Ḍ', 'D'), (u'Ɗ', 'D'), (u'Ḏ', 'D'), (u'Dz', 'D'), (u'Dž', 'D'), (u'Đ', 'D'), \
(u'Ƌ', 'D'), (u'DZ', 'DZ'), (u'DŽ', 'DZ'), (u'É', 'E'), (u'Ĕ', 'E'), (u'Ě', 'E'), (u'Ȩ', 'E'), \
(u'Ḝ', 'E'), (u'Ê', 'E'), (u'Ế', 'E'), (u'Ệ', 'E'), (u'Ề', 'E'), (u'Ể', 'E'), (u'Ễ', 'E'), \
(u'Ḙ', 'E'), (u'Ë', 'E'), (u'Ė', 'E'), (u'Ẹ', 'E'), (u'Ȅ', 'E'), (u'È', 'E'), (u'Ẻ', 'E'), \
(u'Ȇ', 'E'), (u'Ē', 'E'), (u'Ḗ', 'E'), (u'Ḕ', 'E'), (u'Ę', 'E'), (u'Ɇ', 'E'), (u'Ẽ', 'E'), \
(u'Ḛ', 'E'), (u'Ꝫ', 'ET'), (u'Ḟ', 'F'), (u'Ƒ', 'F'), (u'Ǵ', 'G'), (u'Ğ', 'G'), (u'Ǧ', 'G'), \
(u'Ģ', 'G'), (u'Ĝ', 'G'), (u'Ġ', 'G'), (u'Ɠ', 'G'), (u'Ḡ', 'G'), (u'Ǥ', 'G'), (u'Ḫ', 'H'), \
(u'Ȟ', 'H'), (u'Ḩ', 'H'), (u'Ĥ', 'H'), (u'Ⱨ', 'H'), (u'Ḧ', 'H'), (u'Ḣ', 'H'), (u'Ḥ', 'H'), \
(u'Ħ', 'H'), (u'Í', 'I'), (u'Ĭ', 'I'), (u'Ǐ', 'I'), (u'Î', 'I'), (u'Ï', 'I'), (u'Ḯ', 'I'), \
(u'İ', 'I'), (u'Ị', 'I'), (u'Ȉ', 'I'), (u'Ì', 'I'), (u'Ỉ', 'I'), (u'Ȋ', 'I'), (u'Ī', 'I'), \
(u'Į', 'I'), (u'Ɨ', 'I'), (u'Ĩ', 'I'), (u'Ḭ', 'I'), (u'Ꝺ', 'D'), (u'Ꝼ', 'F'), (u'Ᵹ', 'G'), \
(u'Ꞃ', 'R'), (u'Ꞅ', 'S'), (u'Ꞇ', 'T'), (u'Ꝭ', 'IS'), (u'Ĵ', 'J'), (u'Ɉ', 'J'), (u'Ḱ', 'K'), \
(u'Ǩ', 'K'), (u'Ķ', 'K'), (u'Ⱪ', 'K'), (u'Ꝃ', 'K'), (u'Ḳ', 'K'), (u'Ƙ', 'K'), (u'Ḵ', 'K'), \
(u'Ꝁ', 'K'), (u'Ꝅ', 'K'), (u'Ĺ', 'L'), (u'Ƚ', 'L'), (u'Ľ', 'L'), (u'Ļ', 'L'), (u'Ḽ', 'L'), \
(u'Ḷ', 'L'), (u'Ḹ', 'L'), (u'Ⱡ', 'L'), (u'Ꝉ', 'L'), (u'Ḻ', 'L'), (u'Ŀ', 'L'), (u'Ɫ', 'L'), \
(u'Lj', 'L'), (u'Ł', 'L'), (u'LJ', 'LJ'), (u'Ḿ', 'M'), (u'Ṁ', 'M'), (u'Ṃ', 'M'), (u'Ɱ', 'M'), \
(u'Ń', 'N'), (u'Ň', 'N'), (u'Ņ', 'N'), (u'Ṋ', 'N'), (u'Ṅ', 'N'), (u'Ṇ', 'N'), (u'Ǹ', 'N'), \
(u'Ɲ', 'N'), (u'Ṉ', 'N'), (u'Ƞ', 'N'), (u'Nj', 'N'), (u'Ñ', 'N'), (u'NJ', 'NJ'), (u'Ó', 'O'), \
(u'Ŏ', 'O'), (u'Ǒ', 'O'), (u'Ô', 'O'), (u'Ố', 'O'), (u'Ộ', 'O'), (u'Ồ', 'O'), (u'Ổ', 'O'), \
(u'Ỗ', 'O'), (u'Ö', 'O'), (u'Ȫ', 'O'), (u'Ȯ', 'O'), (u'Ȱ', 'O'), (u'Ọ', 'O'), (u'Ő', 'O'), \
(u'Ȍ', 'O'), (u'Ò', 'O'), (u'Ỏ', 'O'), (u'Ơ', 'O'), (u'Ớ', 'O'), (u'Ợ', 'O'), (u'Ờ', 'O'), \
(u'Ở', 'O'), (u'Ỡ', 'O'), (u'Ȏ', 'O'), (u'Ꝋ', 'O'), (u'Ꝍ', 'O'), (u'Ō', 'O'), (u'Ṓ', 'O'), \
(u'Ṑ', 'O'), (u'Ɵ', 'O'), (u'Ǫ', 'O'), (u'Ǭ', 'O'), (u'Ø', 'O'), (u'Ǿ', 'O'), (u'Õ', 'O'), \
(u'Ṍ', 'O'), (u'Ṏ', 'O'), (u'Ȭ', 'O'), (u'Ƣ', 'OI'), (u'Ꝏ', 'OO'), (u'Ɛ', 'E'), (u'Ɔ', 'O'), \
(u'Ȣ', 'OU'), (u'Ṕ', 'P'), (u'Ṗ', 'P'), (u'Ꝓ', 'P'), (u'Ƥ', 'P'), (u'Ꝕ', 'P'), (u'Ᵽ', 'P'), \
(u'Ꝑ', 'P'), (u'Ꝙ', 'Q'), (u'Ꝗ', 'Q'), (u'Ŕ', 'R'), (u'Ř', 'R'), (u'Ŗ', 'R'), (u'Ṙ', 'R'), \
(u'Ṛ', 'R'), (u'Ṝ', 'R'), (u'Ȑ', 'R'), (u'Ȓ', 'R'), (u'Ṟ', 'R'), (u'Ɍ', 'R'), (u'Ɽ', 'R'), \
(u'Ꜿ', 'C'), (u'Ǝ', 'E'), (u'Ś', 'S'), (u'Ṥ', 'S'), (u'Š', 'S'), (u'Ṧ', 'S'), (u'Ş', 'S'), \
(u'Ŝ', 'S'), (u'Ș', 'S'), (u'Ṡ', 'S'), (u'Ṣ', 'S'), (u'Ṩ', 'S'), (u'Ť', 'T'), (u'Ţ', 'T'), \
(u'Ṱ', 'T'), (u'Ț', 'T'), (u'Ⱦ', 'T'), (u'Ṫ', 'T'), (u'Ṭ', 'T'), (u'Ƭ', 'T'), (u'Ṯ', 'T'), \
(u'Ʈ', 'T'), (u'Ŧ', 'T'), (u'Ɐ', 'A'), (u'Ꞁ', 'L'), (u'Ɯ', 'M'), (u'Ʌ', 'V'), (u'Ꜩ', 'TZ'), \
(u'Ú', 'U'), (u'Ŭ', 'U'), (u'Ǔ', 'U'), (u'Û', 'U'), (u'Ṷ', 'U'), (u'Ü', 'U'), (u'Ǘ', 'U'), \
(u'Ǚ', 'U'), (u'Ǜ', 'U'), (u'Ǖ', 'U'), (u'Ṳ', 'U'), (u'Ụ', 'U'), (u'Ű', 'U'), (u'Ȕ', 'U'), \
(u'Ù', 'U'), (u'Ủ', 'U'), (u'Ư', 'U'), (u'Ứ', 'U'), (u'Ự', 'U'), (u'Ừ', 'U'), (u'Ử', 'U'), \
(u'Ữ', 'U'), (u'Ȗ', 'U'), (u'Ū', 'U'), (u'Ṻ', 'U'), (u'Ų', 'U'), (u'Ů', 'U'), (u'Ũ', 'U'), \
(u'Ṹ', 'U'), (u'Ṵ', 'U'), (u'Ꝟ', 'V'), (u'Ṿ', 'V'), (u'Ʋ', 'V'), (u'Ṽ', 'V'), (u'Ꝡ', 'VY'), \
(u'Ẃ', 'W'), (u'Ŵ', 'W'), (u'Ẅ', 'W'), (u'Ẇ', 'W'), (u'Ẉ', 'W'), (u'Ẁ', 'W'), (u'Ⱳ', 'W'), \
(u'Ẍ', 'X'), (u'Ẋ', 'X'), (u'Ý', 'Y'), (u'Ŷ', 'Y'), (u'Ÿ', 'Y'), (u'Ẏ', 'Y'), (u'Ỵ', 'Y'), \
(u'Ỳ', 'Y'), (u'Ƴ', 'Y'), (u'Ỷ', 'Y'), (u'Ỿ', 'Y'), (u'Ȳ', 'Y'), (u'Ɏ', 'Y'), (u'Ỹ', 'Y'), \
(u'Ź', 'Z'), (u'Ž', 'Z'), (u'Ẑ', 'Z'), (u'Ⱬ', 'Z'), (u'Ż', 'Z'), (u'Ẓ', 'Z'), (u'Ȥ', 'Z'), \
(u'Ẕ', 'Z'), (u'Ƶ', 'Z'), (u'IJ', 'IJ'), (u'Œ', 'OE'), (u'ᴀ', 'A'), (u'ᴁ', 'AE'), (u'ʙ', 'B'), \
(u'ᴃ', 'B'), (u'ᴄ', 'C'), (u'ᴅ', 'D'), (u'ᴇ', 'E'), (u'ꜰ', 'F'), (u'ɢ', 'G'), (u'ʛ', 'G'), \
(u'ʜ', 'H'), (u'ɪ', 'I'), (u'ʁ', 'R'), (u'ᴊ', 'J'), (u'ᴋ', 'K'), (u'ʟ', 'L'), (u'ᴌ', 'L'), \
(u'ᴍ', 'M'), (u'ɴ', 'N'), (u'ᴏ', 'O'), (u'ɶ', 'OE'), (u'ᴐ', 'O'), (u'ᴕ', 'OU'), (u'ᴘ', 'P'), \
(u'ʀ', 'R'), (u'ᴎ', 'N'), (u'ᴙ', 'R'), (u'ꜱ', 'S'), (u'ᴛ', 'T'), (u'ⱻ', 'E'), (u'ᴚ', 'R'), \
(u'ᴜ', 'U'), (u'ᴠ', 'V'), (u'ᴡ', 'W'), (u'ʏ', 'Y'), (u'ᴢ', 'Z'), (u'á', 'a'), (u'ă', 'a'), \
(u'ắ', 'a'), (u'ặ', 'a'), (u'ằ', 'a'), (u'ẳ', 'a'), (u'ẵ', 'a'), (u'ǎ', 'a'), (u'â', 'a'), \
(u'ấ', 'a'), (u'ậ', 'a'), (u'ầ', 'a'), (u'ẩ', 'a'), (u'ẫ', 'a'), (u'ä', 'a'), (u'ǟ', 'a'), \
(u'ȧ', 'a'), (u'ǡ', 'a'), (u'ạ', 'a'), (u'ȁ', 'a'), (u'à', 'a'), (u'ả', 'a'), (u'ȃ', 'a'), \
(u'ā', 'a'), (u'ą', 'a'), (u'ᶏ', 'a'), (u'ẚ', 'a'), (u'å', 'a'), (u'ǻ', 'a'), (u'ḁ', 'a'), \
(u'ⱥ', 'a'), (u'ã', 'a'), (u'ꜳ', 'aa'), (u'æ', 'ae'), (u'ǽ', 'ae'), (u'ǣ', 'ae'), \
(u'ꜵ', 'ao'), (u'ꜷ', 'au'), (u'ꜹ', 'av'), (u'ꜻ', 'av'), (u'ꜽ', 'ay'), (u'ḃ', 'b'), \
(u'ḅ', 'b'), (u'ɓ', 'b'), (u'ḇ', 'b'), (u'ᵬ', 'b'), (u'ᶀ', 'b'), (u'ƀ', 'b'), (u'ƃ', 'b'), \
(u'ɵ', 'o'), (u'ć', 'c'), (u'č', 'c'), (u'ç', 'c'), (u'ḉ', 'c'), (u'ĉ', 'c'), (u'ɕ', 'c'), \
(u'ċ', 'c'), (u'ƈ', 'c'), (u'ȼ', 'c'), (u'ď', 'd'), (u'ḑ', 'd'), (u'ḓ', 'd'), (u'ȡ', 'd'), \
(u'ḋ', 'd'), (u'ḍ', 'd'), (u'ɗ', 'd'), (u'ᶑ', 'd'), (u'ḏ', 'd'), (u'ᵭ', 'd'), (u'ᶁ', 'd'), \
(u'đ', 'd'), (u'ɖ', 'd'), (u'ƌ', 'd'), (u'ı', 'i'), (u'ȷ', 'j'), (u'ɟ', 'j'), (u'ʄ', 'j'), \
(u'dz', 'dz'), (u'dž', 'dz'), (u'é', 'e'), (u'ĕ', 'e'), (u'ě', 'e'), (u'ȩ', 'e'), (u'ḝ', 'e'), \
(u'ê', 'e'), (u'ế', 'e'), (u'ệ', 'e'), (u'ề', 'e'), (u'ể', 'e'), (u'ễ', 'e'), (u'ḙ', 'e'), \
(u'ë', 'e'), (u'ė', 'e'), (u'ẹ', 'e'), (u'ȅ', 'e'), (u'è', 'e'), (u'ẻ', 'e'), (u'ȇ', 'e'), \
(u'ē', 'e'), (u'ḗ', 'e'), (u'ḕ', 'e'), (u'ⱸ', 'e'), (u'ę', 'e'), (u'ᶒ', 'e'), (u'ɇ', 'e'), \
(u'ẽ', 'e'), (u'ḛ', 'e'), (u'ꝫ', 'et'), (u'ḟ', 'f'), (u'ƒ', 'f'), (u'ᵮ', 'f'), (u'ᶂ', 'f'), \
(u'ǵ', 'g'), (u'ğ', 'g'), (u'ǧ', 'g'), (u'ģ', 'g'), (u'ĝ', 'g'), (u'ġ', 'g'), (u'ɠ', 'g'), \
(u'ḡ', 'g'), (u'ᶃ', 'g'), (u'ǥ', 'g'), (u'ḫ', 'h'), (u'ȟ', 'h'), (u'ḩ', 'h'), (u'ĥ', 'h'), \
(u'ⱨ', 'h'), (u'ḧ', 'h'), (u'ḣ', 'h'), (u'ḥ', 'h'), (u'ɦ', 'h'), (u'ẖ', 'h'), (u'ħ', 'h'), \
(u'ƕ', 'hv'), (u'í', 'i'), (u'ĭ', 'i'), (u'ǐ', 'i'), (u'î', 'i'), (u'ï', 'i'), (u'ḯ', 'i'), \
(u'ị', 'i'), (u'ȉ', 'i'), (u'ì', 'i'), (u'ỉ', 'i'), (u'ȋ', 'i'), (u'ī', 'i'), (u'į', 'i'), \
(u'ᶖ', 'i'), (u'ɨ', 'i'), (u'ĩ', 'i'), (u'ḭ', 'i'), (u'ꝺ', 'd'), (u'ꝼ', 'f'), (u'ᵹ', 'g'), \
(u'ꞃ', 'r'), (u'ꞅ', 's'), (u'ꞇ', 't'), (u'ꝭ', 'is'), (u'ǰ', 'j'), (u'ĵ', 'j'), (u'ʝ', 'j'), \
(u'ɉ', 'j'), (u'ḱ', 'k'), (u'ǩ', 'k'), (u'ķ', 'k'), (u'ⱪ', 'k'), (u'ꝃ', 'k'), (u'ḳ', 'k'), \
(u'ƙ', 'k'), (u'ḵ', 'k'), (u'ᶄ', 'k'), (u'ꝁ', 'k'), (u'ꝅ', 'k'), (u'ĺ', 'l'), (u'ƚ', 'l'), \
(u'ɬ', 'l'), (u'ľ', 'l'), (u'ļ', 'l'), (u'ḽ', 'l'), (u'ȴ', 'l'), (u'ḷ', 'l'), (u'ḹ', 'l'), \
(u'ⱡ', 'l'), (u'ꝉ', 'l'), (u'ḻ', 'l'), (u'ŀ', 'l'), (u'ɫ', 'l'), (u'ᶅ', 'l'), (u'ɭ', 'l'), \
(u'ł', 'l'), (u'lj', 'lj'), (u'ſ', 's'), (u'ẜ', 's'), (u'ẛ', 's'), (u'ẝ', 's'), (u'ḿ', 'm'), \
(u'ṁ', 'm'), (u'ṃ', 'm'), (u'ɱ', 'm'), (u'ᵯ', 'm'), (u'ᶆ', 'm'), (u'ń', 'n'), (u'ň', 'n'), \
(u'ņ', 'n'), (u'ṋ', 'n'), (u'ȵ', 'n'), (u'ṅ', 'n'), (u'ṇ', 'n'), (u'ǹ', 'n'), (u'ɲ', 'n'), \
(u'ṉ', 'n'), (u'ƞ', 'n'), (u'ᵰ', 'n'), (u'ᶇ', 'n'), (u'ɳ', 'n'), (u'ñ', 'n'), (u'nj', 'nj'), \
(u'ó', 'o'), (u'ŏ', 'o'), (u'ǒ', 'o'), (u'ô', 'o'), (u'ố', 'o'), (u'ộ', 'o'), (u'ồ', 'o'), \
(u'ổ', 'o'), (u'ỗ', 'o'), (u'ö', 'o'), (u'ȫ', 'o'), (u'ȯ', 'o'), (u'ȱ', 'o'), (u'ọ', 'o'), \
(u'ő', 'o'), (u'ȍ', 'o'), (u'ò', 'o'), (u'ỏ', 'o'), (u'ơ', 'o'), (u'ớ', 'o'), (u'ợ', 'o'), \
(u'ờ', 'o'), (u'ở', 'o'), (u'ỡ', 'o'), (u'ȏ', 'o'), (u'ꝋ', 'o'), (u'ꝍ', 'o'), (u'ⱺ', 'o'), \
(u'ō', 'o'), (u'ṓ', 'o'), (u'ṑ', 'o'), (u'ǫ', 'o'), (u'ǭ', 'o'), (u'ø', 'o'), (u'ǿ', 'o'), \
(u'õ', 'o'), (u'ṍ', 'o'), (u'ṏ', 'o'), (u'ȭ', 'o'), (u'ƣ', 'oi'), (u'ꝏ', 'oo'), (u'ɛ', 'e'), \
(u'ᶓ', 'e'), (u'ɔ', 'o'), (u'ᶗ', 'o'), (u'ȣ', 'ou'), (u'ṕ', 'p'), (u'ṗ', 'p'), (u'ꝓ', 'p'), \
(u'ƥ', 'p'), (u'ᵱ', 'p'), (u'ᶈ', 'p'), (u'ꝕ', 'p'), (u'ᵽ', 'p'), (u'ꝑ', 'p'), (u'ꝙ', 'q'), \
(u'ʠ', 'q'), (u'ɋ', 'q'), (u'ꝗ', 'q'), (u'ŕ', 'r'), (u'ř', 'r'), (u'ŗ', 'r'), (u'ṙ', 'r'), \
(u'ṛ', 'r'), (u'ṝ', 'r'), (u'ȑ', 'r'), (u'ɾ', 'r'), (u'ᵳ', 'r'), (u'ȓ', 'r'), (u'ṟ', 'r'), \
(u'ɼ', 'r'), (u'ᵲ', 'r'), (u'ᶉ', 'r'), (u'ɍ', 'r'), (u'ɽ', 'r'), (u'ↄ', 'c'), (u'ꜿ', 'c'), \
(u'ɘ', 'e'), (u'ɿ', 'r'), (u'ś', 's'), (u'ṥ', 's'), (u'š', 's'), (u'ṧ', 's'), (u'ş', 's'), \
(u'ŝ', 's'), (u'ș', 's'), (u'ṡ', 's'), (u'ṣ', 's'), (u'ṩ', 's'), (u'ʂ', 's'), (u'ᵴ', 's'), \
(u'ᶊ', 's'), (u'ȿ', 's'), (u'ɡ', 'g'), (u'ᴑ', 'o'), (u'ᴓ', 'o'), (u'ᴝ', 'u'), (u'ť', 't'), \
(u'ţ', 't'), (u'ṱ', 't'), (u'ț', 't'), (u'ȶ', 't'), (u'ẗ', 't'), (u'ⱦ', 't'), (u'ṫ', 't'), \
(u'ṭ', 't'), (u'ƭ', 't'), (u'ṯ', 't'), (u'ᵵ', 't'), (u'ƫ', 't'), (u'ʈ', 't'), (u'ŧ', 't'), \
(u'ᵺ', 'th'), (u'ɐ', 'a'), (u'ᴂ', 'ae'), (u'ǝ', 'e'), (u'ᵷ', 'g'), (u'ɥ', 'h'), (u'ʮ', 'h'), \
(u'ʯ', 'h'), (u'ᴉ', 'i'), (u'ʞ', 'k'), (u'ꞁ', 'l'), (u'ɯ', 'm'), (u'ɰ', 'm'), (u'ᴔ', 'oe'), \
(u'ɹ', 'r'), (u'ɻ', 'r'), (u'ɺ', 'r'), (u'ⱹ', 'r'), (u'ʇ', 't'), (u'ʌ', 'v'), (u'ʍ', 'w'), \
(u'ʎ', 'y'), (u'ꜩ', 'tz'), (u'ú', 'u'), (u'ŭ', 'u'), (u'ǔ', 'u'), (u'û', 'u'), (u'ṷ', 'u'), \
(u'ü', 'u'), (u'ǘ', 'u'), (u'ǚ', 'u'), (u'ǜ', 'u'), (u'ǖ', 'u'), (u'ṳ', 'u'), (u'ụ', 'u'), \
(u'ű', 'u'), (u'ȕ', 'u'), (u'ù', 'u'), (u'ủ', 'u'), (u'ư', 'u'), (u'ứ', 'u'), (u'ự', 'u'), \
(u'ừ', 'u'), (u'ử', 'u'), (u'ữ', 'u'), (u'ȗ', 'u'), (u'ū', 'u'), (u'ṻ', 'u'), (u'ų', 'u'), \
(u'ᶙ', 'u'), (u'ů', 'u'), (u'ũ', 'u'), (u'ṹ', 'u'), (u'ṵ', 'u'), (u'ᵫ', 'ue'), (u'ꝸ', 'um'), \
(u'ⱴ', 'v'), (u'ꝟ', 'v'), (u'ṿ', 'v'), (u'ʋ', 'v'), (u'ᶌ', 'v'), (u'ⱱ', 'v'), (u'ṽ', 'v'), \
(u'ꝡ', 'vy'), (u'ẃ', 'w'), (u'ŵ', 'w'), (u'ẅ', 'w'), (u'ẇ', 'w'), (u'ẉ', 'w'), (u'ẁ', 'w'), \
(u'ⱳ', 'w'), (u'ẘ', 'w'), (u'ẍ', 'x'), (u'ẋ', 'x'), (u'ᶍ', 'x'), (u'ý', 'y'), (u'ŷ', 'y'), \
(u'ÿ', 'y'), (u'ẏ', 'y'), (u'ỵ', 'y'), (u'ỳ', 'y'), (u'ƴ', 'y'), (u'ỷ', 'y'), (u'ỿ', 'y'), \
(u'ȳ', 'y'), (u'ẙ', 'y'), (u'ɏ', 'y'), (u'ỹ', 'y'), (u'ź', 'z'), (u'ž', 'z'), (u'ẑ', 'z'), \
(u'ʑ', 'z'), (u'ⱬ', 'z'), (u'ż', 'z'), (u'ẓ', 'z'), (u'ȥ', 'z'), (u'ẕ', 'z'), (u'ᵶ', 'z'), \
(u'ᶎ', 'z'), (u'ʐ', 'z'), (u'ƶ', 'z'), (u'ɀ', 'z'), (u'ff', 'ff'), (u'ffi', 'ffi'), (u'ffl', 'ffl'), \
(u'fi', 'fi'), (u'fl', 'fl'), (u'ij', 'ij'), (u'œ', 'oe'), (u'st', 'st'), (u'ₐ', 'a'), (u'ₑ', 'e'), \
(u'ᵢ', 'i'), (u'ⱼ', 'j'), (u'ₒ', 'o'), (u'ᵣ', 'r'), (u'ᵤ', 'u'), (u'ᵥ', 'v'), (u'ₓ', 'x'), \
('[^\x00-\x7F]', '?')]

sub_str = chr_replacements[14]

# Use regexp_replace to substitute characters
DATA_INPUT_DF = DATA_INPUT_DF.withColumn("Inc_Summary", F.regexp_replace(DATA_INPUT_DF.Inc_Summary, sub_str[0], sub_str[1]))

sub_str = chr_replacements[66]

# Use regexp_replace to substitute characters
DATA_INPUT_DF = DATA_INPUT_DF.withColumn("Inc_Summary", F.regexp_replace(DATA_INPUT_DF.Inc_Summary, sub_str[0], sub_str[1]))

return DATA_INPUT_DF
当我尝试循环遍历列表中的所有元组时,会出现StackOverflow错误

for sub_str in chr_replacements:
    # Use regexp_replace to substitute characters
    DATA_INPUT_DF = DATA_INPUT_DF.withColumn("Inc_Summary", F.regexp_replace(DATA_INPUT_DF.Inc_Summary, sub_str[0], sub_str[1]))
我已经尝试了各种各样的方法,我可以通过谷歌找到这个,但对我来说没有任何工作
我做错了什么?

检查API函数translate():translate对于替换单个字符非常有效。我使用regexp_replace来替换,例如'Ꜹ' 要“AV”,请检查API函数translate():translate对于字符替换的单个字符非常有效。我使用regexp_replace来替换,例如'Ꜹ' 到“AV”