Python 如何正确使用tensorflow ctc光束搜索?
我想对(给出音素概率值的ASR模型的输出)矩阵执行CTC波束搜索。 Tensorflow有一个CTC波束搜索,但它的文档记录很差,而且我也无法给出一个有效的例子。我想编写一段代码,将其用作基准测试 以下是我目前的代码:Python 如何正确使用tensorflow ctc光束搜索?,python,tensorflow,beam-search,ctc,Python,Tensorflow,Beam Search,Ctc,我想对(给出音素概率值的ASR模型的输出)矩阵执行CTC波束搜索。 Tensorflow有一个CTC波束搜索,但它的文档记录很差,而且我也无法给出一个有效的例子。我想编写一段代码,将其用作基准测试 以下是我目前的代码: import numpy as np import tensorflow as tf def decode_ctcBeam(matrix, classes): matrix = np.reshape(matrix, (matrix.shape[0], 1,matri
import numpy as np
import tensorflow as tf
def decode_ctcBeam(matrix, classes):
matrix = np.reshape(matrix, (matrix.shape[0], 1,matrix.shape[1]))
aa_ctc_blank_aa_logits = tf.constant(matrix)
sequence_length = tf.constant(np.array([len(matrix)], dtype=np.int32))
(decoded_list,), log_probabilities = tf.nn.ctc_beam_search_decoder(inputs=aa_ctc_blank_aa_logits,
sequence_length=sequence_length,
merge_repeated=True,
beam_width=25)
out = list(tf.Session().run(tf.sparse_tensor_to_dense(decoded_list)[0]))
print(out)
return out
if __name__ == '__main__':
classes = ['AA', 'B', 'CH']
mat = np.array([[0.4, 0, 0.6, 0.2], [0.4, 0, 0.6, 0.2]], dtype=np.float32)
actual = decode_ctcBeam (mat, classes)
我在理解代码时遇到问题:
- 在示例中,mat的形状为(2,4),但tensorflow模块需要(2,1,4)的形状,因此我使用
但这在数学上意味着什么?mat和matrix是否相同?还是我把事情搞混了?中间的1是批次大小,我理解。matrix=np.重塑(矩阵,(矩阵.形状[0],1,矩阵.形状[1]))
- decode_ctcBeam函数返回一个列表,在它给出的示例中[2],它应该表示定义类中的“CH”。如果我有一个更大的输入矩阵,比如说40个音素,我该如何推广这一点并找到已识别的音素序列李>
期待您的回答/评论!谢谢 所以,自从我提出这个问题以来,我已经取得了一些进展,但仍然没有弄清楚如何正确使用Tensorflow的CTC波束搜索。可以看出,设置top_paths=1和beam_width=1确实会返回贪婪搜索在整数列表中的预期输出,这些整数可以轻松转换为存储在类中所需的音素。这种情况下的输出为: -------贪心的--------- 输出整型列表 [1,22,39,14,32,8] ['AE','N','G','UH','D'] 在波束搜索的情况下,结果很糟糕 -------波束搜索---------- 输出整型列表 [26,19,9,28,5,0,2,31,1,22,39,14,32,20,8,16,39,30,37,8] [p',K',DH',S',AY',AA',AH',TH',AE',N',G',UH',L',D',IH',T',Z',D'] 参考是“我很好”。[1,22,39,14,32,8]的列表在Beam搜索结果中,其他部分应该是可选根?我很怀疑。 有人有什么想法吗
import numpy as np
import tensorflow as tf
import Classes
def decode_ctcBeam(matrix, classes):
matrix = np.reshape(matrix, (matrix.shape[0], 1,matrix.shape[1]))
aa_ctc_blank_aa_logits = tf.constant(matrix)
sequence_length = tf.constant(np.array([len(matrix)], dtype=np.int32))
(decoded_list,), log_probabilities = tf.nn.ctc_beam_search_decoder(inputs=aa_ctc_blank_aa_logits,
sequence_length=sequence_length,
merge_repeated=True,
top_paths=1,
beam_width=4)
out = list(tf.Session().run(tf.sparse_tensor_to_dense(decoded_list)[0]))
print("Output int list")
print(out)
seq_list = get_seq_from_list(out, classes)
return seq_list
def decode_ctcgreedy(matrix, classes):
matrix = np.reshape(matrix, (matrix.shape[0], 1,matrix.shape[1]))
aa_ctc_blank_aa_logits = tf.constant(matrix)
sequence_length = tf.constant(np.array([len(matrix)], dtype=np.int32))
(decoded_list,), log_probabilities = tf.nn.ctc_beam_search_decoder(inputs=aa_ctc_blank_aa_logits,
sequence_length=sequence_length,
merge_repeated=True,
top_paths=1,
beam_width=1)
out = list(tf.Session().run(tf.sparse_tensor_to_dense(decoded_list)[0]))
print("Output int list")
print(out)
seq_list = get_seq_from_list(out, classes)
return seq_list
def get_seq_from_list(int_list, classes):
out_list = []
for i in range(0, len(int_list)):
out_list.append(classes[int_list[i]])
return out_list
if __name__ == '__main__':
mat = np.load('../npy_files/a1003.npy')
classes = Classes.get_classes()
print("-------Greedy---------")
actual = decode_ctcgreedy(mat, classes)
print(actual)
print("\n-------Beam Search----------")
actual = decode_ctcBeam(mat, classes)
print(actual)
TF文档错误-波束宽度为1的波束搜索与贪婪解码(我创建了一个)不同 然后,您可以简单地使用np.transpose来重新排列维度,而不是np.reformate,然后使用np.expand_dims为批量大小1添加维度 最后,关于TF beam搜索实现:是的,文档不是很好。 我在文本识别模型中使用了该实现,我为您指出了与您相关的行:
- :注意merge_repeated=False,因为TF的默认设置(为True)对99.99999%的相关用例没有意义。只需按照传递参数的变量名查看它们的外观,例如,输入矩阵是ctcIn3dTBC,它是RNN输出的转置版本
- :该操作返回稀疏张量列表,必须将其解码为字符字符串