Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/315.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Unet输入和输出_Python_Computer Vision_Pytorch - Fatal编程技术网

Python Unet输入和输出

Python Unet输入和输出,python,computer-vision,pytorch,Python,Computer Vision,Pytorch,我对计算机视觉完全陌生,我正在尝试训练一个模型,该模型采用普通的3通道图像(RGB)并给出一个输出,这只是一个简单的二进制掩模。据我所知,名为Unet的架构就是这样做的。例如,TernausnetV2在kaggle竞赛中表现相当出色。在这种模型架构中,我所考虑的输入和输出是否正确 我有三通道图像(RGB)和二值遮罩图像(与三通道图像大小相同,所有值都是1或0)。 感谢前面的帮助。您正在讨论的计算机视觉任务称为语义分段,而U-Net模型是用于类似问题的基本自动编码器体系结构。现在有许多模型是从U-

我对计算机视觉完全陌生,我正在尝试训练一个模型,该模型采用普通的3通道图像(RGB)并给出一个输出,这只是一个简单的二进制掩模。据我所知,名为Unet的架构就是这样做的。例如,TernausnetV2在kaggle竞赛中表现相当出色。在这种模型架构中,我所考虑的输入和输出是否正确

我有三通道图像(RGB)和二值遮罩图像(与三通道图像大小相同,所有值都是1或0)。
感谢前面的帮助。

您正在讨论的计算机视觉任务称为语义分段,而U-Net模型是用于类似问题的基本自动编码器体系结构。现在有许多模型是从U-Net(Ternausnet就是其中之一)衍生出来的,可以在与代码SOTA比较的论文中找到一些比较。 U-Net体系结构通常使用3通道输入尺寸进行RGB图像处理,1通道输出尺寸-模型通常使用sigmoid激活卷积层作为最终层,核心尺寸为1x1,基本上贯穿整个图像,每个像素上计算sigmoid函数
-wikipedia为每个像素指定一个介于0和1之间的值(取决于您可以使用的数据量tanh--1/1)。更多信息可以在本教程中找到,来自《走向数据科学》

非常好的信息,我会记住这些。谢谢。