Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/361.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 谁能解释一下这些括号中所有代码的含义:RegexpTokenizer(r';\w+;|$[0-9]+;| S+;';)?_Python_Nlp_Nltk - Fatal编程技术网

Python 谁能解释一下这些括号中所有代码的含义:RegexpTokenizer(r';\w+;|$[0-9]+;| S+;';)?

Python 谁能解释一下这些括号中所有代码的含义:RegexpTokenizer(r';\w+;|$[0-9]+;| S+;';)?,python,nlp,nltk,Python,Nlp,Nltk,我最近读了一本关于NLP的书,其中一部分作者向我展示了如何标记一段文本 然后他给我看这个代码: sent0=“”托马斯·杰斐逊在26岁时开始建造蒙蒂塞洛 标记器=RegexpTokenizer(r'\w+|$[0-9]+|\S++) 打印(标记器.标记化(sent0)) 我不明白的是这个“r'\w+|$[0-9]+|\S+'的意思。有人能给我解释一下吗?试着看看这里,了解更多关于正则表达式的信息:这里有一个解释正则表达式的好工具: 我的回答直接摘自本页。这个工具是一个很好的平台,可以修改您的正

我最近读了一本关于NLP的书,其中一部分作者向我展示了如何标记一段文本

然后他给我看这个代码:

sent0=“”托马斯·杰斐逊在26岁时开始建造蒙蒂塞洛
标记器=RegexpTokenizer(r'\w+|$[0-9]+|\S++)
打印(标记器.标记化(sent0))

我不明白的是这个“r'\w+|$[0-9]+|\S+'的意思。有人能给我解释一下吗?

试着看看这里,了解更多关于正则表达式的信息:

这里有一个解释正则表达式的好工具:

我的回答直接摘自本页。这个工具是一个很好的平台,可以修改您的正则表达式,以查看它在实时中的不同行为

r'\w+|$[0-9]+|\S+'

\w+匹配任何单词字符(等于[a-zA-Z0-9_])

+量词-在一次和无限次之间进行匹配,尽可能多次匹配,并根据需要进行回馈

$在一行末尾断言位置

匹配下表中的单个字符 [0-9]+

+量词-在一次和无限次之间匹配,尽可能多地匹配,根据需要返回(贪婪) 0-9介于0(索引48)和9(索引57)之间的单个字符(区分大小写)

\S+匹配任何非空白字符(等于[^\r\n\t\f\v]) +量词-在一次和无限次之间匹配,尽可能多地匹配,根据需要返回(贪婪)

按字面意思“匹配字符”(区分大小写)

全局模式标志 g修饰语:全局。所有比赛(第一场比赛后不返回)
m修改器:多行。使“^”和“$”匹配每行的开始/结束(不仅仅是字符串的开始/结束)

您可以在这里找到一些有关表示任何单词或字符的\w的信息,|表示或$[0-9]任何数字…非常感谢,我不知道该网页。从现在起我将使用它。