Python 使用张量上的字符串操作进行文本预处理
我试图编写一个函数,从Keras输入层获取两个字符串张量,并对它们执行一些字符串操作 我的第一个问题是如何循环使用张量中的每个项目,使用第二个输入(两个单词的短语)拆分第一个输入(完整句子),并检索拆分单词的索引Python 使用张量上的字符串操作进行文本预处理,python,tensorflow,keras,nlp,tensor,Python,Tensorflow,Keras,Nlp,Tensor,我试图编写一个函数,从Keras输入层获取两个字符串张量,并对它们执行一些字符串操作 我的第一个问题是如何循环使用张量中的每个项目,使用第二个输入(两个单词的短语)拆分第一个输入(完整句子),并检索拆分单词的索引 Sentence = "this is an example to split on this dummy phrase and get an index" Phrase = "this dummy phrase" output = [7, 9] 我拥有的函数(处理字符串) 如何将此
Sentence = "this is an example to split on this dummy phrase and get an index"
Phrase = "this dummy phrase"
output = [7, 9]
我拥有的函数(处理字符串)
如何将此函数转换为处理张量或在张量上循环并应用此函数。我有一批(256,1)的句子和一批(256,1)的相应短语作为输入
我的第二个问题是如何将张量转换为单代号字符串:
该层的输出为:
tf.Tensor([[b'this is an example to split on this dummy phrase and get an index']...], shape=(256, 1), dtype=string)
但是我想从一开始就去掉“b”。查找反向索引的功能是什么?你会在
句子中设置一批字符串,在短语中设置一个分隔符,还是在句子中设置一批句子和短语中设置一个分隔符?顺便说一句,关于第二个问题,TensorFlow不支持Unicode或任何文本编码,tf.string
张量实际上只是字节。当你需要在某处写出结果时,你可以在计算结果后将字节解码成字符串(尽管现在有一些函数像获取Unicode码点)。是的,我将有一批句子和一批相应的短语。我将更新问题,使其包含find\u reverse\u index
,但基本上它从句子中获取短语中第一个单词的索引。
tf.Tensor([[b'this is an example to split on this dummy phrase and get an index']...], shape=(256, 1), dtype=string)