Python Unet输入和输出_Python_Computer Vision_Pytorch

Python Unet输入和输出

python computer-vision pytorch

Python Unet输入和输出,python,computer-vision,pytorch,Python,Computer Vision,Pytorch,我对计算机视觉完全陌生，我正在尝试训练一个模型，该模型采用普通的3通道图像（RGB）并给出一个输出，这只是一个简单的二进制掩模。据我所知，名为Unet的架构就是这样做的。例如，TernausnetV2在kaggle竞赛中表现相当出色。在这种模型架构中，我所考虑的输入和输出是否正确我有三通道图像（RGB）和二值遮罩图像（与三通道图像大小相同，所有值都是1或0）。感谢前面的帮助。您正在讨论的计算机视觉任务称为语义分段，而U-Net模型是用于类似问题的基本自动编码器体系结构。现在有许多模型是从U-

我对计算机视觉完全陌生，我正在尝试训练一个模型，该模型采用普通的3通道图像（RGB）并给出一个输出，这只是一个简单的二进制掩模。据我所知，名为Unet的架构就是这样做的。例如，TernausnetV2在kaggle竞赛中表现相当出色。在这种模型架构中，我所考虑的输入和输出是否正确

我有三通道图像（RGB）和二值遮罩图像（与三通道图像大小相同，所有值都是1或0）。

感谢前面的帮助。

您正在讨论的计算机视觉任务称为语义分段，而U-Net模型是用于类似问题的基本自动编码器体系结构。现在有许多模型是从U-Net（Ternausnet就是其中之一）衍生出来的，可以在与代码SOTA比较的论文中找到一些比较。 U-Net体系结构通常使用3通道输入尺寸进行RGB图像处理，1通道输出尺寸-模型通常使用sigmoid激活卷积层作为最终层，核心尺寸为1x1，基本上贯穿整个图像，每个像素上计算sigmoid函数

-wikipedia为每个像素指定一个介于0和1之间的值（取决于您可以使用的数据量tanh--1/1）。更多信息可以在本教程中找到，来自《走向数据科学》

非常好的信息，我会记住这些。谢谢。