Python 3.x RuntimeError:还原步骤2后：设备端断言触发Jupyter笔记本上的Pytorch_Python 3.x_Binary_Gpu_Pytorch

Python 3.x RuntimeError:还原步骤2后：设备端断言触发Jupyter笔记本上的Pytorch

python-3.x binary pytorch

Python 3.x RuntimeError:还原步骤2后：设备端断言触发Jupyter笔记本上的Pytorch,python-3.x,binary,gpu,pytorch,Python 3.x,Binary,Gpu,Pytorch,我正在Jupyter笔记本上使用Pytork训练一个二进制分类器。以下是体系结构： class AlexNet(nn.Module): def __init__(self, num_classes=1): super(AlexNet, self).__init__() self.conv_base = nn.Sequential( nn.Conv2d(3, 96, kernel_size=11, stride=4, padding=

我正在Jupyter笔记本上使用Pytork训练一个二进制分类器。以下是体系结构：

class AlexNet(nn.Module):
    def __init__(self, num_classes=1):
        super(AlexNet, self).__init__()
        self.conv_base = nn.Sequential(
            nn.Conv2d(3, 96, kernel_size=11, stride=4, padding=2, bias=False),
            nn.BatchNorm2d(96),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),

            nn.Conv2d(96, 256, kernel_size=5, stride=1, padding=2, bias=False),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),

            nn.Conv2d(256, 384, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),

            nn.Conv2d(384, 384, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),

            nn.Conv2d(384, 256, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
        )
        self.fc_base = nn.Sequential(
            nn.Dropout(),
            nn.Linear(256*6*6, 4096),
            nn.ReLU(inplace=True),

            nn.Dropout(),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),

            nn.Linear(4096, num_classes),
        )

    def forward(self, x):
        x = self.conv_base(x)
        x = x.view(x.size(0), 256*6*6)
        x = self.fc_base(x)
        return x

以下是我的培训参数：

criterion = nn.BCELoss()

# specify optimizer
optimizer = torch.optim.SGD(model.parameters(), lr=2e-5, momentum=0.9)

当我开始培训时，出现以下错误：

运行时错误：减少步骤2后：触发设备端断言

一些奇怪的事情也在发生：

1）这是一次训练，但学习率很低。因此，当我改变它并再次开始训练过程时，我得到了错误

2）运行此命令时，我也会遇到此错误：

model = AlexNet()
model.cuda()

错误：

运行时错误：CUDA错误：已触发设备端断言

我发现一些暂时有效的解决方案是：

1）将os.environ['CUDA\u LAUNCH\u BLOCKING']=“1”添加到笔记本中。 2）正在使用的GPU内存。所以我删除了运行笔记本的进程

然而，似乎没有什么东西能永远起作用。有什么建议吗？

我可以回答子问题（1）。模型中的登录项作为输入直接输入到

BCELoss

，这实际上假设输入描述了概率分布。第一个

运行时错误

可以通过将

nn.BCELoss

替换为

nn.BCEWithLogitsLoss

来修复，后者首先通过sigmoid函数为最终线性层的输出提供反馈