Python 使用张量上的字符串操作进行文本预处理

Python 使用张量上的字符串操作进行文本预处理,python,tensorflow,keras,nlp,tensor,Python,Tensorflow,Keras,Nlp,Tensor,我试图编写一个函数,从Keras输入层获取两个字符串张量,并对它们执行一些字符串操作 我的第一个问题是如何循环使用张量中的每个项目,使用第二个输入(两个单词的短语)拆分第一个输入(完整句子),并检索拆分单词的索引 Sentence = "this is an example to split on this dummy phrase and get an index" Phrase = "this dummy phrase" output = [7, 9] 我拥有的函数(处理字符串) 如何将此

我试图编写一个函数,从Keras输入层获取两个字符串张量,并对它们执行一些字符串操作

我的第一个问题是如何循环使用张量中的每个项目,使用第二个输入(两个单词的短语)拆分第一个输入(完整句子),并检索拆分单词的索引

Sentence = "this is an example to split on this dummy phrase and get an index"
Phrase = "this dummy phrase"
output = [7, 9]
我拥有的函数(处理字符串)

如何将此函数转换为处理张量或在张量上循环并应用此函数。我有一批(256,1)的句子和一批(256,1)的相应短语作为输入

我的第二个问题是如何将张量转换为单代号字符串: 该层的输出为:

tf.Tensor([[b'this is an example to split on this dummy phrase and get an index']...], shape=(256, 1), dtype=string)

但是我想从一开始就去掉“b”。

查找反向索引的功能是什么?你会在
句子中设置一批字符串,在
短语中设置一个分隔符,还是在
句子中设置一批
句子和
短语中设置一个分隔符?顺便说一句,关于第二个问题,TensorFlow不支持Unicode或任何文本编码,
tf.string
张量实际上只是
字节。当你需要在某处写出结果时,你可以在计算结果后将字节解码成字符串(尽管现在有一些函数像获取Unicode码点)。是的,我将有一批句子和一批相应的短语。我将更新问题,使其包含
find\u reverse\u index
,但基本上它从句子中获取短语中第一个单词的索引。
tf.Tensor([[b'this is an example to split on this dummy phrase and get an index']...], shape=(256, 1), dtype=string)