Image processing 什么是新颖的对象字幕?为什么MS-COCO中的8个类被排除在本任务之外?
我正在使用图像字幕,但我很难准确理解术语Image processing 什么是新颖的对象字幕?为什么MS-COCO中的8个类被排除在本任务之外?,image-processing,deep-learning,nlp,computer-vision,Image Processing,Deep Learning,Nlp,Computer Vision,我正在使用图像字幕,但我很难准确理解术语新对象字幕。这是不是我们在句子描述对上训练了一个模型,然后应用到一个包含训练过程中从未出现过的对象的数据集?这是我从学校读到的。在导言中还指出: 现有最先进的字幕模型无法 形成集成新对象的合成结构 使用已知概念,但没有明确的意象句子对示例。为了解决这一限制,我们建议 深层合成字幕(DCC),它可以结合词汇单位的视觉基础,生成字幕语料库(成对图像句子数据)中不存在但存在于对象中的对象的描述 识别数据集(未配对图像数据)和文本语料库 (未配对的文本数据) 他们
新对象字幕
。这是不是我们在句子描述对上训练了一个模型,然后应用到一个包含训练过程中从未出现过的对象的数据集?这是我从学校读到的。在导言中还指出:
现有最先进的字幕模型无法
形成集成新对象的合成结构
使用已知概念,但没有明确的意象句子对示例。为了解决这一限制,我们建议
深层合成字幕(DCC),它可以结合词汇单位的视觉基础,生成字幕语料库(成对图像句子数据)中不存在但存在于对象中的对象的描述
识别数据集(未配对图像数据)和文本语料库
(未配对的文本数据)
他们提到了大约8类MS-COCO被排除在新对象字幕中,但我并不真正理解这一步的意义
要确保排除的对象
至少与一些包含的相似,我们将80
MSCOCO分割挑战中注释的对象
使用描述的word2vec嵌入中的向量
在第3.4节中,从每个簇中排除一个对象。这个
选择下列词语:“瓶子”、“公共汽车”、“沙发”、“微波炉”、“比萨饼”、“球拍”、“手提箱”和“斑马”
关于第二个问题,我在这里补充,但希望得到更深入的解释:
评估我们的方法执行域外图像的能力
在说明中,我们复制了现有的实验设计(Hendricks et
等人,2016年)使用MSCOCO。按照这种方法,所有图像都具有
说明八个选定对象之一(或其名称)的标题
同义词)从图像标题训练集中排除。这
将标题训练集的大小从82783个图像减少到
70194张图片。但是,完整的字幕训练集是标记化的
每幅图像包含一袋文字,并作为图像标签培训提供
数据。因此,选定对象在图像标题中不可见
训练数据,但不是图像标记训练数据。被排除在外的
对象,由Hendricks等人(2016)从80个主要对象中选择
MSCOCO中的类别包括:“瓶子”、“公共汽车”、“沙发”、“微波炉”,
“比萨饼”、“球拍”、“手提箱”和“斑马”
那么现在,我该如何理解域外图像字幕
?这与新颖的图像字幕
相同吗
有图像字幕经验的人能帮我澄清这些问题吗?谢谢你的帮助