Small Sample Learning-Zongben Xu

小样本学习问题(Small Sample Learning)

  • 根源
    1. 大数据中的长尾分布
    2. 数据标注成本高
    3. 认知科学研究的需要
  • 特点
    1. 数据量小
    2. 基于知识
    3. 快速处理
  • 类型
    1. 概念学习:先学习概念,再组合新样本中的概念得出结论
    2. 经验学习:也称作小数据学习(Small Data Learning)

概念学习(Concept Learning)

  • 框架
    1. 概念系统:内涵表示,外延表示
    2. 匹配规则:将概念系统与小样本建立关联
  • 方法
    输入小样本 => 内涵匹配 => 外延匹配 => 内涵外延混合匹配 => 形成新概念 => 完成识别或形成新概念
  • 策略
    最大化特征表示与内涵、外延表示间的相似度。
  • k-shot learning
    未知样本在训练集出现过k次,例如zero-shot,one-shot,few-shot。

经验学习(Experience Learning)

  • 框架
    1. 数据扩充:通过变换、合成或其它方法根据小样本生成大量新数据。
    2. 知识系统:包括其它领域的表示、训练好的模型、概念中习得的知识、元知识。
  • 方法
    • 扩充数据,转化为大数据学习问题
    • 减少大数据学习方法中对样本量的依赖
    • 使用小样本修正已知模型
    • 协作学习或学会学习
  • 策略
    • 跨模态转移(Cross-domain synthesis):建立其它领域到当前领域的映射
    • 数据变换(Deformations):对原始数据进行添加噪声、镜像、缩放、旋转等操作到新数据
    • 模型生成(Generative model):使用模型生成大量数据
    • 伪标号方法(Pseudo-label method):使用模型对未标记数据生成可信的伪标记
    • 领域自适应(Domain adaptation):借用其它类似问题的解决方案
    • 模型驱动学习(Model driven learners):限制假设空间的范围
    • 噪声建模原理(Noise modeling principle):增强好样本的作用,减少坏样本的影响
    • 小样本微调(Finetuning):使用小样本对训练好的模型进行微调
    • 精馏(Distillation):简化大数据模型,使模型在小样本上表现良好
    • 知识驱动的小样本学习(Bayesian learning):
    • 学会学习(Learning to learn):从一组密切相关的任务中学习通用方法

Zero-Shot Visual Recognition using Semantics-Preserving Adversarial Embedding Networks

摘要

本文针对zero-shot视觉识别(ZSL)问题提出了语义保留的对抗嵌入网络(SP-AEN),目的是解决传统嵌入网络中的语义丢失问题。SP-AEN通过引入独立的 视觉-语义空间嵌入器 避免语义损失,该嵌入器将语义空间分为分类和重构两个对立的子空间。通过两个子空间的对抗学习,SP-AEN将语义从重构子空间转移到识别子空间,实现更好的zero-shot识别效果。SP-AEN不仅可以提高分类性能,还能生成仿真图像。

引言

零样本视觉识别可归为零样本学习问题,用于识别样本中未出现的新类别。直觉上讲,零样本学习是将已知类别的知识迁移到未知类别,比如虽然训练样本中没有出现过浣熊,但我们可以判断新样本是否满足“条形尾巴”、“像狐狸”等浣熊的属性判断该样本是否是浣熊。这些属性可以在训练集与测试集间共享。这个迁移过程已经由原始的属性分类发展为基于语义嵌入的框架。

基于语义嵌入的框架如下图(a)所示,首先将视觉空间嵌入到语义空间,再使用简单的最近邻算法分类。这种框架的语义迁移能力受限于语义损失问题,即由于训练集和测试集的语义差异,训练集中区分度较低的语义被丢弃,而这些被丢弃的语义恰好在测试集中具有良好的区分度,因此训练出的模型在测试时效果不好。一种解决方案是通过重构保留语义,即嵌入后的语义应当能够重构出原图像。但是,重构和分类是两个对立的目标,前者尽量保留图像细节信息,后者尽量忽略不相关的细节。因此,不可能同时应用两者。为解决这个问题,论文提出了SP-AEN,如下图(c)所示,引入了鉴别器D和编码器F,E是从视觉空间到语义空间的映射,G是从语义空间到视觉空间的映射,D和F尽量使F(x)和E(x)不可区分。引入D和F是为了帮助E保留语义,有两点好处: 1. 语义迁移 尽管E的语义损失不可避免,但F可以借用E从其他类中得到的语义E(x),鉴别器D最终通过将两种语义嵌入裁剪到同一分布实现F到E的语义迁移。例如,在鸟类中丢失的语义“斑点”,可以从猎豹类中习得。 2. 重构与分类分离 重构过程只使用F和G,而E专用于分类,解决了重构与分类的冲突。
该方案的重构效果如下图所示。


Weakly Supervised Cascaded Convolutional Networks

摘要

目标检测是视觉理解领域中的一个有挑战性的任务,弱监督时更是如此。本文针对弱监督问题提出了两种级联卷积神经网络架构。其中一种分为两个阶段,另一个分为三个阶段,这些级联的阶段通过一个端到端的流水线进行训练。它们的第一阶段都是通过训练一个全卷积网络提取类别特定区域提案的最佳候选,后者的第二阶段使用第一阶段的结果对目标进行分割,两者的最后阶段都是用卷积神经网络的一部分对之前阶段的结果进行多实例学习。这两种架构在弱监督目标检测,分类和定位问题上都有成效。

引言

训练一个能在场景杂乱、数量未知、边界未知、只有物品名称的图像中识别目标的系统的能力很重要,这样就能从互联网上自动采集大量有标签数据。弱监督学习通常由以下步骤组成。先产生目标可能的位置,再从这些可能的位置抽取特征,最后对这些特征应用多实例学习(MIL)找出目标边界。改进这些步骤都可以提升效果。本文提出的两种架构的弱监督算法也基于这些步骤,改进了目标候选位置提取和最后的目标检测。就前向而言,减少了噪声候选对非凸损失函数的影响;就后向而言,由于权值共享,更好的目标检测也提高了候选提取的表现。


Weakly-Supervised Image Annotation and Segmentation with Objects and Attributes

摘要

本文使用Weakly Supervised Markov Random Field Stacked Indian Buffet Process(WS-MRF-SIBF)学习目标外观、属性类别和实例间的联系。WS-MRF-SIBF使用目标和属性作为潜在因素建模,通过超像素显式获取他们间的关系。该模型可以解决自动目标标注、属性预测和关联、目标检测和语义分割。

引言

人类可以在看到图像的第一眼就给出丰富的场景描述,模仿这一能力也是计算机视觉过去五十年来的研究目标,由此衍生出目标标注、属性预测和关联、目标检测和语义分割等基础问题。虽然这些问题是息息相关的,但现有的研究大都将它们分开解决,而且使用强监督学习方法。传统的监督方法是通过大量的已标记图像学习目标检测器和属性分类器,描述新图像时先找到目标位置,再用属性分类器生成目标描述。这样做有两个重要限制,一是缺乏大量标注数据,二是对相关任务联合使用相同模型会给更好些。

本文针对这些限制使用目标+属性模型联合处理这些问题,该模型从弱标记数据中学习,克服了数据量缺乏的问题。在图片中学习语义是很困难的事,真实世界的标签大都是模棱两可的。为此本文通过泛化无参的Indian Buffet Process(IBP)构造了目标检测、属性检测和目标间关系检测的方案。IBP能解释同时影响图像或超像素外观的因素,这些因素可以是一个目标的文本,颜色等属性。同时IBP也能自动发现训练数据中潜在的没有出现的标签并对它们建模。然而传统IBP是无监督的,也只能单独用于超像素或图像,且只能发现超像素内的目标关联,不能直接应用到本文的目标场景。WS-MRF-SIBP与IBP的不同之处在于:1)将图像分为一组超像素;2)图像级弱监督学习;3) 使用超像素间的Markov Random Field(MRF)利用空间平滑性,使用超像素内的MRF利用不同属性与对象的共现统计信息。


Zero-Shot Learning - The Good, the Bad and the Ugly

摘要

本文分为三个部分:1) 明确零样本学习没有公认的评判基准,因此本文先定义一个基准;2) 深入对比分析当前零样本学习的先进研究成果,包括经典零样本学习和更现实、泛化的零样本学习;3) 讨论目前零样本学习中存在并且值得改进的基本限制。

引言

零样本学习用于识别在训练过程中没出现过的目标。尽管针对零样本学习的研究每年都有大量进步,但如果没有建立起评估协议,很难量化这些进步。追求数字提升的评估方式存在一定瑕疵。因此本文提出一种更合理的评估基准。该基准通过三个方面系统评估零样本学习:方法,数据集和评估协议。零样本学习方法的关键是通过一些辅助信息建立起已知类和未知类间的联系。评价学习方法主要靠它们在少数类上的表现;对于数据集部分,采用数据集的多重分割评估;使用统一的评估协议。


Zero-Shot Deep Domain Adaptation

摘要

领域自适应方法是将已知领域的知识迁移到目标领域。目前的方法假设任务相关的目标领域有充足的训练数据。本文演示当目标领域没有足够的数据时如何进行领域自适应,提出了零样本深度领域自适应(ZDDA),ZDDA使用不相关任务的对偶领域对的私有信息。ZDDA学习源域表示,该表示不仅适合于感兴趣的任务,而且还接近目标域表示。

引言

在真实场景中,我们只能某个领域中有限数量的数据,某个领域的解决方案应用到其它领域时效果变差。领域迁移是个典型的领域自适应(DA)任务,给定源领域数据、目标领域数据和感兴趣的任务(TOI),DA的目标是提取源领域和目标领域共同感兴趣的任务。先前的研究都假定有足够的目标领域的训练数据,但这一假设通常不满足。针对这些未解决的问题,本文提出了ZDDA,从任务不相关(T-I)的对偶领域训练对中学习,不使用任务相关(T-R)的目标领域数据。下图是从MNIST迁移到MNIST-M的示例,根据灰度图识别彩色图中的数字,训练中引入了由Fashion-MNIST和Fashion-MNIST-M组成的不相关数据对,使得模型能同时识别灰度和彩色目标。


Unsupervised Learning of Disentangled and Interpretable Representations from Sequential Data

摘要

本文提出了一种分解层次变分自动编码器,可以在无监督的情况下从序列数据中学习分解的可解释的表示。本文利用序列数据中信息的多尺度特性,在分解的层次图形模型中显式地将其表示出来,该层次图模型将序列相关先验和序列无关先验引入到不同的潜在变量集合中。

引言

一种无监督学习的方法是概率生成模型。最近主要有三种深度概率生成模型:变分自动编码器(VAE),生成对抗网络(GAN),自回归模型。这些模型都可以从观测数据中推断潜在变量。虽然有大量研究是关于静态数据的,关于序列数据的研究相对较少。另外,也没有对序列数据上的无监督学习分离和可解释表示的研究。序列数据中的信息是天然多尺度的,利用这些特性,我们可以用无监督的方式学习分解的和可解释的因素。本文提出了分解层次变分自动编码器,用一个分解层次图模型对多尺度信息建模。该模型可以在段层次进行优化,避免了序列太长时的可伸缩问题。为了更好地捕获临时关系,应用了一个序列到序列的神经网络架构。


Unsupervised Learning of Disentangled Representations from Video

摘要

本文提出了DRNET模型,用于从视频中学习分离图像表示。此方法利用视频的临时相关性和全新的对抗损失学习一个将每一帧分解为一个固定的部分和一个临时变化的组件的表示。这种分离表示可以用于很多任务,例如,在随时间改变的组件上应用长短期记忆网络可以预测未来帧。

引言

视频无监督学习是一个在计算机视觉和机器学习中长期存在的问题,目标是在没有显式标签的情况下学习一种有效生成之前未出现的任务范围的表示。现有的一些相关方法:1) 自监督学习,使用领域知识显式提供标签,使问题成为自生成标签的分类问题;2) 使用辅助动作标签,可在真实或模拟机器人环境中使用;3) 使用预测性自动编码器,尝试从当前帧预测未来帧。为了学习有效的表示,需要一些潜在表示的限制。本文引入了预测性自动编码器,使用对抗损失将每帧的表示分为内容和姿态两部分,内容与时间无关,姿态是序列的动态表示。直觉上讲,内容特征可以区分帧,而姿态特征不包含具体帧的信息。


相关材料