Python 文本标记器的模式说明_Python_Nlp_Nltk

Python 文本标记器的模式说明

python nlp

Python 文本标记器的模式说明,python,nlp,nltk,Python,Nlp,Nltk,我想知道使用此标记器中的指定模式对文本执行的操作： from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'[a-zA-Z]\w+\'?\w*') text_token = text.apply(tokenizer.tokenize) 其中“文本”是一个系列，每行是一个句子我特别想了解r'[a-zA-Z]\w+\'？\w'*部分。详细信息（每个组件的说明）将不胜感激。这称为正则表达式或。在 [a-zA-Z

我想知道使用此标记器中的指定模式对文本执行的操作：

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'[a-zA-Z]\w+\'?\w*')
text_token = text.apply(tokenizer.tokenize)

其中“文本”是一个系列，每行是一个句子

我特别想了解r'[a-zA-Z]\w+\'？\w'*部分。详细信息（每个组件的说明）将不胜感激。

这称为正则表达式或。在

[a-zA-Z]\w+\'？\w*

```
[a-zA-Z]
```
表示从
```
a
```
到
```
Z
```
或从
```
a
```
到
```
Z
```
```
\w+
```
匹配任何重复的单词字符，其中
```
\w
```
为
```
[a-zA-Z0-9.]
```
和
```
+
```
符号的缩写允许重复
```
\'？
```
逐字匹配字符
```
'
```
```
\w*
```
又是单词字符，从一次重复到无限次

例如，字符串

Random01'example

与此表达式匹配。也很好地解释了这一点。

请看我投票结束这个问题，因为它是在问“为什么这个代码能工作？”也许这更清楚