keras标记器是否执行柠檬化和词干化任务?
keras标记器是否提供词干化和柠檬化等功能?如果是这样,那么是如何做到的?需要直觉的理解。另外,keras标记器是否执行柠檬化和词干化任务?,keras,nlp,tokenize,stemming,lemmatization,Keras,Nlp,Tokenize,Stemming,Lemmatization,keras标记器是否提供词干化和柠檬化等功能?如果是这样,那么是如何做到的?需要直觉的理解。另外,text\u-to\u序列在这方面做了什么?可能会混淆标记器分别做什么以及标记化是什么。标记化将字符串拆分为更小的实体,如单词或单个字符。因此,这些也被称为令牌。提供了一个很好的示例: 敏捷的棕色狐狸跳过懒狗变成: <sentence> <word>The</word> <word>quick</word> ... <
text\u-to\u序列
在这方面做了什么?可能会混淆标记器分别做什么以及标记化是什么。标记化将字符串拆分为更小的实体,如单词或单个字符。因此,这些也被称为令牌。提供了一个很好的示例:
敏捷的棕色狐狸跳过懒狗
变成:
<sentence>
<word>The</word>
<word>quick</word>
...
<word>dog</word>
</sentence>
这个
快的
...
狗
Lemmatization(将单词->的屈折形式组合在一起)或词干分析(将屈折词(有时派生词)还原为词干->的过程)是在预处理过程中执行的操作。标记化可以是柠檬化和词干化之前或之后(或两者)预处理过程的一部分
无论如何,Keras并不是一个完整的文本预处理框架。因此,您将已清理、柠檬化等数据输入到Keras中关于您的第一个问题:不,Keras不提供柠檬化或词干化等功能。
Keras在文本预处理中理解的是准备数据以便提供给Keras模型(如序列模型)的功能。例如,这就是为什么:
该类允许通过旋转每个文本来对文本语料库进行矢量化
转换为整数序列(每个整数都是
(字典中的标记)或转换为向量,其中每个
令牌可以是二进制的,基于字数,基于tf idf
例如,通过将输入字符串矢量化并将其转换为数字数据,您可以将其作为输入输入输入到神经网络(对于Keras)
text_to_sequence
的含义可以从以下内容中提取:[……]个整数序列(每个整数都是字典中标记的索引)[……]。
这意味着之前的字符串可以是数字整数序列(例如数组),而不是实际的单词
关于这一点,您还应该了解什么是Keras序列模型(例如),因为它们将seuqences作为输入
此外,text\u to\u word\u sequence()
()也提供了这种标记化,但不会将数据矢量化为数字向量,并返回标记化字符串的数组
将文本转换为一系列单词(或标记)