Python 文本标记器的模式说明
我想知道使用此标记器中的指定模式对文本执行的操作:Python 文本标记器的模式说明,python,nlp,nltk,Python,Nlp,Nltk,我想知道使用此标记器中的指定模式对文本执行的操作: from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'[a-zA-Z]\w+\'?\w*') text_token = text.apply(tokenizer.tokenize) 其中“文本”是一个系列,每行是一个句子 我特别想了解r'[a-zA-Z]\w+\'?\w'*部分。详细信息(每个组件的说明)将不胜感激。这称为正则表达式或。在 [a-zA-Z
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'[a-zA-Z]\w+\'?\w*')
text_token = text.apply(tokenizer.tokenize)
其中“文本”是一个系列,每行是一个句子
我特别想了解r'[a-zA-Z]\w+\'?\w'*部分。详细信息(每个组件的说明)将不胜感激。这称为正则表达式或。在
[a-zA-Z]\w+\'?\w*
表示从[a-zA-Z]
到a
或从Z
到a
Z
匹配任何重复的单词字符,其中\w+
为\w
和[a-zA-Z0-9.]
符号的缩写允许重复+
逐字匹配字符\'?
'
又是单词字符,从一次重复到无限次\w*
例如,字符串
Random01'example
与此表达式匹配。也很好地解释了这一点。请看我投票结束这个问题,因为它是在问“为什么这个代码能工作?”也许这更清楚