Computer vision MediaPipe TensorflowLite虹膜模型

Computer vision MediaPipe TensorflowLite虹膜模型,computer-vision,tensorflow-lite,mediapipe,Computer Vision,Tensorflow Lite,Mediapipe,我试图理解mediapipe提供的tflite的输出 将输出描述为71个二维地标和5个二维地标。检查模型时,如下所示: interpreter = tf.lite.Interpreter(model_path='iris_landmark.tflite') interpreter.allocate_tensors() output_details = interpreter.get_output_details() print(output_details) [{'dtype': numpy

我试图理解mediapipe提供的tflite的输出

将输出描述为71个二维地标和5个二维地标。检查模型时,如下所示:

interpreter = tf.lite.Interpreter(model_path='iris_landmark.tflite')
interpreter.allocate_tensors()
output_details = interpreter.get_output_details()

print(output_details)
[{'dtype': numpy.float32,
  'index': 384,
  'name': 'output_eyes_contours_and_brows',
  'quantization': (0.0, 0),
  'quantization_parameters': {'quantized_dimension': 0,
   'scales': array([], dtype=float32),
   'zero_points': array([], dtype=int32)},
  'shape': array([  1, 213], dtype=int32),
  'shape_signature': array([  1, 213], dtype=int32),
  'sparsity_parameters': {}},
 {'dtype': numpy.float32,
  'index': 385,
  'name': 'output_iris',
  'quantization': (0.0, 0),
  'quantization_parameters': {'quantized_dimension': 0,
   'scales': array([], dtype=float32),
   'zero_points': array([], dtype=int32)},
  'shape': array([ 1, 15], dtype=int32),
  'shape_signature': array([ 1, 15], dtype=int32),
  'sparsity_parameters': {}}]
我在模型输出中看到213个值和15个值-因此我假设我得到了每个点的x/y/z坐标。在图像上运行模型后,我得到了-7000到+7000范围内的值。我的输入是一张64x64的图像,你知道这些点与原始图像的对应关系吗


我希望得到眼睛关键点的像素坐标,这些坐标在mediapipe示例中呈现。

模型卡似乎有误,它实际上输出3D坐标,模型输入和输出上也有一些不清晰的标准化,但用于绘制2d地标

我发现了一个github问题。我没有看到与模型卡相关的任何变化

我创建了一个colab来演示正确的用法。可以忽略z坐标并将x/y坐标绘制到图像上以查看地标

我可能应该用一个虹膜图片的例子来更新colab