Python 使用张量上的字符串操作进行文本预处理_Python_Tensorflow_Keras_Nlp_Tensor

Python 使用张量上的字符串操作进行文本预处理

python tensorflow keras nlp

Python 使用张量上的字符串操作进行文本预处理,python,tensorflow,keras,nlp,tensor,Python,Tensorflow,Keras,Nlp,Tensor,我试图编写一个函数，从Keras输入层获取两个字符串张量，并对它们执行一些字符串操作我的第一个问题是如何循环使用张量中的每个项目，使用第二个输入（两个单词的短语）拆分第一个输入（完整句子），并检索拆分单词的索引 Sentence = "this is an example to split on this dummy phrase and get an index" Phrase = "this dummy phrase" output = [7, 9] 我拥有的函数（处理字符串）如何将此

我试图编写一个函数，从Keras输入层获取两个字符串张量，并对它们执行一些字符串操作

我的第一个问题是如何循环使用张量中的每个项目，使用第二个输入（两个单词的短语）拆分第一个输入（完整句子），并检索拆分单词的索引

Sentence = "this is an example to split on this dummy phrase and get an index"
Phrase = "this dummy phrase"
output = [7, 9]

我拥有的函数（处理字符串）

如何将此函数转换为处理张量或在张量上循环并应用此函数。我有一批（256,1）的句子和一批（256,1）的相应短语作为输入

我的第二个问题是如何将张量转换为单代号字符串：该层的输出为：

tf.Tensor([[b'this is an example to split on this dummy phrase and get an index']...], shape=(256, 1), dtype=string)

但是我想从一开始就去掉“b”。

查找反向索引的功能是什么？你会在

句子中设置一批字符串，在短语中设置一个分隔符，还是在句子中设置一批句子和短语中设置一个分隔符？顺便说一句，关于第二个问题，TensorFlow不支持Unicode或任何文本编码，tf.string
张量实际上只是字节。当你需要在某处写出结果时，你可以在计算结果后将字节解码成字符串（尽管现在有一些函数像获取Unicode码点）。是的，我将有一批句子和一批相应的短语。我将更新问题，使其包含find\u reverse\u index，但基本上它从句子中获取短语中第一个单词的索引。
tf.Tensor([[b'this is an example to split on this dummy phrase and get an index']...], shape=(256, 1), dtype=string)