Python 文本标记器的模式说明

Python 文本标记器的模式说明,python,nlp,nltk,Python,Nlp,Nltk,我想知道使用此标记器中的指定模式对文本执行的操作: from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'[a-zA-Z]\w+\'?\w*') text_token = text.apply(tokenizer.tokenize) 其中“文本”是一个系列,每行是一个句子 我特别想了解r'[a-zA-Z]\w+\'?\w'*部分。详细信息(每个组件的说明)将不胜感激。这称为正则表达式或。在 [a-zA-Z

我想知道使用此标记器中的指定模式对文本执行的操作:

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'[a-zA-Z]\w+\'?\w*')
text_token = text.apply(tokenizer.tokenize)
其中“文本”是一个系列,每行是一个句子


我特别想了解r'[a-zA-Z]\w+\'?\w'*部分。详细信息(每个组件的说明)将不胜感激。

这称为正则表达式或。在

[a-zA-Z]\w+\'?\w*

  • [a-zA-Z]
    表示从
    a
    Z
    或从
    a
    Z
  • \w+
    匹配任何重复的单词字符,其中
    \w
    [a-zA-Z0-9.]
    +
    符号的缩写允许重复
  • \'?
    逐字匹配字符
    '
  • \w*
    又是单词字符,从一次重复到无限次

例如,字符串
Random01'example
与此表达式匹配。也很好地解释了这一点。

请看我投票结束这个问题,因为它是在问“为什么这个代码能工作?”也许这更清楚