Image processing 什么是新颖的对象字幕？为什么MS-COCO中的8个类被排除在本任务之外？_Image Processing_Deep Learning_Nlp_Computer Vision

Image processing 什么是新颖的对象字幕？为什么MS-COCO中的8个类被排除在本任务之外？

image-processing deep-learning nlp computer-vision

Image processing 什么是新颖的对象字幕？为什么MS-COCO中的8个类被排除在本任务之外？,image-processing,deep-learning,nlp,computer-vision,Image Processing,Deep Learning,Nlp,Computer Vision,我正在使用图像字幕，但我很难准确理解术语新对象字幕。这是不是我们在句子描述对上训练了一个模型，然后应用到一个包含训练过程中从未出现过的对象的数据集？这是我从学校读到的。在导言中还指出：现有最先进的字幕模型无法形成集成新对象的合成结构使用已知概念，但没有明确的意象句子对示例。为了解决这一限制，我们建议深层合成字幕（DCC），它可以结合词汇单位的视觉基础，生成字幕语料库（成对图像句子数据）中不存在但存在于对象中的对象的描述识别数据集（未配对图像数据）和文本语料库（未配对的文本数据）他们

我正在使用图像字幕，但我很难准确理解术语

新对象字幕

。这是不是我们在句子描述对上训练了一个模型，然后应用到一个包含训练过程中从未出现过的对象的数据集？这是我从学校读到的。在导言中还指出：

现有最先进的字幕模型无法形成集成新对象的合成结构使用已知概念，但没有明确的意象句子对示例。为了解决这一限制，我们建议深层合成字幕（DCC），它可以结合词汇单位的视觉基础，生成字幕语料库（成对图像句子数据）中不存在但存在于对象中的对象的描述识别数据集（未配对图像数据）和文本语料库（未配对的文本数据）

他们提到了大约8类MS-COCO被排除在

新对象字幕中，但我并不真正理解这一步的意义
要确保排除的对象
至少与一些包含的相似，我们将80
MSCOCO分割挑战中注释的对象
使用描述的word2vec嵌入中的向量
在第3.4节中，从每个簇中排除一个对象。这个
选择下列词语：“瓶子”、“公共汽车”、“沙发”、“微波炉”、“比萨饼”、“球拍”、“手提箱”和“斑马”
关于第二个问题，我在这里补充，但希望得到更深入的解释：
评估我们的方法执行域外图像的能力
在说明中，我们复制了现有的实验设计（Hendricks et
等人，2016年）使用MSCOCO。按照这种方法，所有图像都具有
说明八个选定对象之一（或其名称）的标题
同义词）从图像标题训练集中排除。这
将标题训练集的大小从82783个图像减少到
70194张图片。但是，完整的字幕训练集是标记化的
每幅图像包含一袋文字，并作为图像标签培训提供
数据。因此，选定对象在图像标题中不可见
训练数据，但不是图像标记训练数据。被排除在外的
对象，由Hendricks等人（2016）从80个主要对象中选择
MSCOCO中的类别包括：“瓶子”、“公共汽车”、“沙发”、“微波炉”，
“比萨饼”、“球拍”、“手提箱”和“斑马”
那么现在，我该如何理解域外图像字幕
？这与新颖的图像字幕
相同吗
有图像字幕经验的人能帮我澄清这些问题吗？谢谢你的帮助