Regex 如何根据词汇表列表拆分字符串?
给出一个词汇表:Regex 如何根据词汇表列表拆分字符串?,regex,split,nlp,tokenize,Regex,Split,Nlp,Tokenize,给出一个词汇表: glossaries = ['USA', '34'] 目标是使用词汇表中的项目,并使用词汇表作为分隔符拆分字符串。例如,给定字符串和词汇表,一个\u isolate\u glossaries()函数: glossaries = ['USA', '34'] word = '1934USABUSA' _isolate_glossaries(word, glossaries) 应输出: ['19', '34', 'USA', 'B', 'USA'] 我试过: def isola
glossaries = ['USA', '34']
目标是使用词汇表中的项目,并使用词汇表作为分隔符拆分字符串。例如,给定字符串和词汇表,一个\u isolate\u glossaries()
函数:
glossaries = ['USA', '34']
word = '1934USABUSA'
_isolate_glossaries(word, glossaries)
应输出:
['19', '34', 'USA', 'B', 'USA']
我试过:
def isolate_glossary(word, glossary):
print(word, glossary)
# Check that word == glossary and glossary not in word
if re.match('^{}$'.format(glossary), word) or not re.search(glossary, word):
return [word]
else:
segments = re.split(r'({})'.format(glossary), word)
segments, ending = segments[:-1], segments[-1] # Remove the last catch with null string.
return segments
def _isolate_glossaries(word, glossaries):
word_segments = [word]
for gloss in glossaries:
word_segments = [out_segment
for segment in word_segments
for out_segment in isolate_glossary(segment, gloss)]
return word_segments
它可以工作,但看起来有点太复杂了,无法进行这么多级别的循环和正则表达式拆分是否有更好的方法根据词汇表拆分字符串?若要按列表中的项目拆分字符串,请动态创建一个正则表达式,其中包含由管道分隔的项目,这些项目都包含在捕获组中(非捕获组在输出中不包含项目本身):
请参见您应该为split方法动态创建一个正则表达式,例如
(UDS | 34)
。词汇表项位于替换项的一侧。例如:re.split(“({})”.format(“|”).join(词汇表)),word)
?是的,请在这里检查,谢谢@revo!这比我在问题中提到的原始函数要清楚得多。
list = re.split('({})'.format('|'.join(glossaries)), word);
print ([x for x in list if x]) # filter non-word items