Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/bash/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Image processing 什么是新颖的对象字幕?为什么MS-COCO中的8个类被排除在本任务之外?_Image Processing_Deep Learning_Nlp_Computer Vision - Fatal编程技术网

Image processing 什么是新颖的对象字幕?为什么MS-COCO中的8个类被排除在本任务之外?

Image processing 什么是新颖的对象字幕?为什么MS-COCO中的8个类被排除在本任务之外?,image-processing,deep-learning,nlp,computer-vision,Image Processing,Deep Learning,Nlp,Computer Vision,我正在使用图像字幕,但我很难准确理解术语新对象字幕。这是不是我们在句子描述对上训练了一个模型,然后应用到一个包含训练过程中从未出现过的对象的数据集?这是我从学校读到的。在导言中还指出: 现有最先进的字幕模型无法 形成集成新对象的合成结构 使用已知概念,但没有明确的意象句子对示例。为了解决这一限制,我们建议 深层合成字幕(DCC),它可以结合词汇单位的视觉基础,生成字幕语料库(成对图像句子数据)中不存在但存在于对象中的对象的描述 识别数据集(未配对图像数据)和文本语料库 (未配对的文本数据) 他们

我正在使用图像字幕,但我很难准确理解术语
新对象字幕
。这是不是我们在句子描述对上训练了一个模型,然后应用到一个包含训练过程中从未出现过的对象的数据集?这是我从学校读到的。在导言中还指出:

现有最先进的字幕模型无法 形成集成新对象的合成结构 使用已知概念,但没有明确的意象句子对示例。为了解决这一限制,我们建议 深层合成字幕(DCC),它可以结合词汇单位的视觉基础,生成字幕语料库(成对图像句子数据)中不存在但存在于对象中的对象的描述 识别数据集(未配对图像数据)和文本语料库 (未配对的文本数据)

他们提到了大约8类MS-COCO被排除在
新对象字幕中,但我并不真正理解这一步的意义

要确保排除的对象 至少与一些包含的相似,我们将80 MSCOCO分割挑战中注释的对象 使用描述的word2vec嵌入中的向量 在第3.4节中,从每个簇中排除一个对象。这个 选择下列词语:“瓶子”、“公共汽车”、“沙发”、“微波炉”、“比萨饼”、“球拍”、“手提箱”和“斑马”

关于第二个问题,我在这里补充,但希望得到更深入的解释:

评估我们的方法执行域外图像的能力 在说明中,我们复制了现有的实验设计(Hendricks et 等人,2016年)使用MSCOCO。按照这种方法,所有图像都具有 说明八个选定对象之一(或其名称)的标题 同义词)从图像标题训练集中排除。这 将标题训练集的大小从82783个图像减少到 70194张图片。但是,完整的字幕训练集是标记化的 每幅图像包含一袋文字,并作为图像标签培训提供 数据。因此,选定对象在图像标题中不可见 训练数据,但不是图像标记训练数据。被排除在外的 对象,由Hendricks等人(2016)从80个主要对象中选择 MSCOCO中的类别包括:“瓶子”、“公共汽车”、“沙发”、“微波炉”, “比萨饼”、“球拍”、“手提箱”和“斑马”

那么现在,我该如何理解
域外图像字幕
?这与
新颖的图像字幕
相同吗

有图像字幕经验的人能帮我澄清这些问题吗?谢谢你的帮助