Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/spring-mvc/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
keras标记器是否执行柠檬化和词干化任务?_Keras_Nlp_Tokenize_Stemming_Lemmatization - Fatal编程技术网

keras标记器是否执行柠檬化和词干化任务?

keras标记器是否执行柠檬化和词干化任务?,keras,nlp,tokenize,stemming,lemmatization,Keras,Nlp,Tokenize,Stemming,Lemmatization,keras标记器是否提供词干化和柠檬化等功能?如果是这样,那么是如何做到的?需要直觉的理解。另外,text\u-to\u序列在这方面做了什么?可能会混淆标记器分别做什么以及标记化是什么。标记化将字符串拆分为更小的实体,如单词或单个字符。因此,这些也被称为令牌。提供了一个很好的示例: 敏捷的棕色狐狸跳过懒狗变成: <sentence> <word>The</word> <word>quick</word> ... <

keras标记器是否提供词干化和柠檬化等功能?如果是这样,那么是如何做到的?需要直觉的理解。另外,
text\u-to\u序列
在这方面做了什么?

可能会混淆标记器分别做什么以及标记化是什么。标记化将字符串拆分为更小的实体,如单词或单个字符。因此,这些也被称为令牌。提供了一个很好的示例:

敏捷的棕色狐狸跳过懒狗
变成:

<sentence>
  <word>The</word>
  <word>quick</word>
  ...
  <word>dog</word>
</sentence>

这个
快的
...
狗
Lemmatization(将单词->的屈折形式组合在一起)或词干分析(将屈折词(有时派生词)还原为词干->的过程)是在预处理过程中执行的操作。标记化可以是柠檬化和词干化之前或之后(或两者)预处理过程的一部分

无论如何,Keras并不是一个完整的文本预处理框架。因此,您将已清理、柠檬化等数据输入到Keras中关于您的第一个问题:不,Keras不提供柠檬化或词干化等功能。

Keras在文本预处理中理解的是准备数据以便提供给Keras模型(如序列模型)的功能。例如,这就是为什么:

该类允许通过旋转每个文本来对文本语料库进行矢量化 转换为整数序列(每个整数都是 (字典中的标记)或转换为向量,其中每个 令牌可以是二进制的,基于字数,基于tf idf

例如,通过将输入字符串矢量化并将其转换为数字数据,您可以将其作为输入输入输入到神经网络(对于Keras)

text_to_sequence
的含义可以从以下内容中提取:[……]个整数序列(每个整数都是字典中标记的索引)[……]。 这意味着之前的字符串可以是数字整数序列(例如数组),而不是实际的单词

关于这一点,您还应该了解什么是Keras序列模型(例如),因为它们将seuqences作为输入

此外,
text\u to\u word\u sequence()
()也提供了这种标记化,但不会将数据矢量化为数字向量,并返回标记化字符串的数组

将文本转换为一系列单词(或标记)