正则表达式在python中的unicode单词/数字之间添加空格
我尝试使用unicodes的基本正则表达式,但我无法让它们处理除传统的A-Z和数字之外的字符串 我所看到的例子来自多种语言,而不是A-Z字母家族的一部分正则表达式在python中的unicode单词/数字之间添加空格,python,regex,unicode,nlp,indic,Python,Regex,Unicode,Nlp,Indic,我尝试使用unicodes的基本正则表达式,但我无法让它们处理除传统的A-Z和数字之外的字符串 我所看到的例子来自多种语言,而不是A-Z字母家族的一部分 text = "20किटल" res = re.sub("^[^\W\d_]+$", lambda ele: " " + ele[0] + " ", text) Output: 20किटल 第二次尝试: regexp1 = re.compile('^[^\W
text = "20किटल"
res = re.sub("^[^\W\d_]+$", lambda ele: " " + ele[0] + " ", text)
Output:
20किटल
第二次尝试:
regexp1 = re.compile('^[^\W\d_]+$', re.IGNORECASE | re.UNICODE)
regexp1.sub("^[^\W\d_]+$", lambda ele: " " + ele[0] + " ", text)
Output:
20किटल
Expected output:
**20 किटल**
如果我正确理解您的要求,您是否可以尝试以下方法:
# -*- coding: utf-8 -*-
import re
text = '20किटल'
print(re.sub(r'([0-9a-zA-Z_]+)([^\s0-9a-zA-Z_]+)', r'\1 \2', text))
输出:
20 किटल
20 किटल
使用
20 किटल