论文名称:Dual Contrastive Prediction for Incomplete Multi-View Representation Learning

作者:Yijie Lin; Yuanbiao Gou; Xiaotian Liu; Jinfeng Bai; Jiancheng Lv; Xi Peng

期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence

时间:2022-8

原文摘要

In this article, we propose a unifified framework to solve the following two challenging problems in incomplete multi-view representation learning: i) how to learn a consistent representation unifying different views, and ii) how to recover the missing views. To address the challenges, we provide an information theoretical framework under which the consistency learning and data recovery are treated as a whole. With the theoretical framework, we propose a novel objective function which jointly solves the aforementioned two problems and achieves a provable suffificient and minimal representation. In detail, the consistency learning is performed by maximizing the mutual information of different views through contrastive learning, and the missing views are recovered by minimizing the conditional entropy through dual prediction. To the best of our knowledge, this is one of the fifirst works to theoretically unify the cross-view consistency learning and data recovery for representation learning. Extensive experimental results show that the proposed method remarkably outperforms 20 competitive multi-view learning methods on six datasets in terms of clustering, classifification, and human action recognition. The code could be accessed from https://pengxi.me.

理论基础

多视图表征学习(MVRL)的目的是学习一个函数ff,映射多视图数据到低维的空间中,这个低维空间中学习到的公共表示将被用于下游任务,比如聚类,分类以及人类行为识别等。为了达到这个目标,关键是从不同的视图中学习到一致性信息。

image-20220908151636218

在上图X1\mathbf{X}^1X2\mathbf{X}^2表示给定数据集的两个视图,Z1\mathbf{Z}^1Z2\mathbf{Z}^2分别对应相应的representation,X1=A1A2A3\mathbf{X}^1=\mathrm{A} 1 \cup \mathrm{A} 2 \cup \mathrm{A} 3X2=A2A3A3\mathbf{X}^2=\mathrm{A} 2 \cup \mathrm{A} 3 \cup \mathrm{A} 3 包含的信息分别对应实线和虚线矩形,下方的红色矩形框(Y=A3A4)(\mathbf{Y}=\mathrm{A} 3 \cup \mathrm{A} 4)表示任务相关的信息。具体来说,A1((H(X1X2)))A1(\left(H\left(\mathbf{X}^1 \mid \mathbf{X}^2\right)\right))A5(H(X2X1))A5\left(H\left(\mathbf{X}^2 \mid \mathbf{X}^1\right)\right)表示X1\mathbf{X}^1X2\mathbf{X}^2的视图特定信息。 A2(I(X1;X2Y))\mathrm{A} 2\left(I\left(\mathbf{X}^1 ; \mathbf{X}^2 \mid \mathbf{Y}\right)\right)A3(I(X1;X2;Y))\mathrm{A} 3\left(I\left(\mathbf{X}^1 ; \mathbf{X}^2 ; \mathbf{Y}\right)\right)一起表示X1\mathbf{X}^1X2\mathbf{X}^2的互信息,其中A3A3是任务相关的信息,而A2A2是任务无关的信息。A4(H(YX1,X2))A4\left(H\left(\mathbf{Y} \mid \mathbf{X}^1, \mathbf{X}^2\right)\right)表示无法从输入数据中得到的任务相关信息。

本文分别使用互信息(红色的面积)I(Z1;Z2)I\left(\mathbf{Z}^1 ; \mathbf{Z}^2\right)和条件熵(灰色的面积)H(ZiZj)H\left(\mathbf{Z}^i \mid \mathbf{Z}^j\right.)量化跨视图一致性和跨视图恢复性,最大化互信息I(Z1;Z2)I\left(\mathbf{Z}^1 ; \mathbf{Z}^2\right)同时最小化条件熵H(ZiZj)H\left(\mathbf{Z}^i \mid \mathbf{Z}^j\right)。于是两个目标能够相互增强并联合优化以得到足够(A3Zi\mathrm{A} 3 \in \mathbf{Z}^i)且最小((A1A5)Zi(\mathrm{A} 1 \cup \mathrm{A} 5) \notin \mathbf{Z}^i and A2ZiA2 \in \mathbf{Z}^i)的representation。

充分的representation指为下游任务学习了足够的信息

最小的representation指所有与任务无关的信息都以一个固定的间隙被删除

任务与存在的问题

不完整视图问题(IMP)需要解决两个问题

  1. 如何从不同的视图中学习一致性表征
  2. 如何在不完整的数据中恢复缺失的视图

主要工作和创新点

本文提出了一个不完整多视图表征学习方法,称为双对比预测(Dual Contrastive Prediction, DCP)。DCP映射高维数据到一个潜在空间中,这个空间的跨视图一致性和数据恢复性收到三个联合损失的监督

  1. 视图内重构损失:学习视图特定的representation同时保留原始信息
  2. 双对比损失:通过最大化互信息I(Z1;Z2)I\left(\mathbf{Z}^1 ; \mathbf{Z}^2\right)学习跨视图一致性
  3. 双预测损失:通过最小化条件熵H(Z1Z2)H\left(\mathbf{Z}^1 \mid \mathbf{Z}^2\right.)H(Z2Z1)H\left(\mathbf{Z}^2 \mid \mathbf{Z}^1\right.)恢复缺失的视图。

主要贡献:

  1. 在信息论的框架下,交叉视图一致性学习和数据恢复的内在联系。
  2. 提出DCP通过双对比损失和双预测损失分别得到信息一致性和数据恢复性
  3. 为了利用可用的标签信息,DCP设计并利用了实例级别和类级别的对比损失以增强representation的可分性。

提出的方法

X1\mathbf{X}^1X2\mathbf{X}^2表示相同实例的不同视图,其标签为Y\mathbf{Y}Zi\mathbf{Z}^i为视图Xi\mathbf{X}^i的representation,其通过一个确定的映射f(i):Zi(Xi)f^{(i)}:\mathbf{Z}^i(\mathbf{X}^i)获得,i=1,2i=1,2。使用H(A)H(A)表示熵,H(AB)H(A|B)表示条件熵,I(A;B)I(A;B)表示互信息,I(A;BC)I(A;B|C)表示条件互信息。

定义1:跨视图一致性

给定视图特定的representation Zi\mathbf{Z}^iZj\mathbf{Z}^j,对于任意的Zτ(Xj)\mathbf{Z}^{\prime}\in\tau(\mathbf{X}^j)Zτ(Xi)\mathbf{Z}^{\prime\prime}\in\tau(\mathbf{X}^i),其中τ(Xv)\tau(\mathbf{X}^v)是第v个视图Xv\mathbf{X}^v的possible latent representation的集合,如果I(Zi,Zj)I(Zi;Z)I(\mathbf{Z}^i,\mathbf{Z}^j)\geq I(\mathbf{Z}^i;\mathbf{Z}^{\prime})并且I(Zi,Zj)I(Z;Zj)I(\mathbf{Z}^i,\mathbf{Z}^j)\geq I(\mathbf{Z}^{\prime\prime};\mathbf{Z}^j),那么Zi\mathbf{Z}^iZj\mathbf{Z}^j是一致的。

定义2:跨视图可恢复性

给定representation Zi\mathbf{Z}^i,对于任意的Zτ(Xj)\mathbf{Z}^{\prime}\in\tau(\mathbf{X}^j),如果H(ZiZj)H(ZiZ)H(\mathbf{Z}^i|\mathbf{Z}^j)\leq H(\mathbf{Z}^i|\mathbf{Z}^{\prime}),那么Zi\mathbf{Z}^i是可恢复的。当且仅当H(ZiZj)=0H(\mathbf{Z}^i|\mathbf{Z}^j)=0Zi\mathbf{Z}^i是完全可恢复的。

定义2中的恢复指的是恢复视图的公共信息,而不是全部信息,恢复公共信息有助于提高框架在下游任务中的表现。

理论1:一致性和可恢复性的等价性

若representation Zi\mathbf{Z}^iZj\mathbf{Z}^j跨视图一致,当且仅当Zi\mathbf{Z}^i对于Zj\mathbf{Z}^j是可恢复的并且Zj\mathbf{Z}^j对于Zi\mathbf{Z}^i也是可恢复的(证明略)

假设1:多视图数据的同等充分性

对于下游任务,每一个视图的sufficency是近似相等的,比如保持I(X1;Y)=I(X2;Y)=I(X1;X2;Y)I\left(\mathbf{X}^1 ; \mathbf{Y}\right)=I\left(\mathbf{X}^2 ; \mathbf{Y}\right)=I\left(\mathbf{X}^1 ; \mathbf{X}^2 ; \mathbf{Y}\right)

观点1I(X1;YX2)=I(X2;YX1)=0I\left(\mathbf{X}^1 ; \mathbf{Y} \mid \mathbf{X}^2\right)=I\left(\mathbf{X}^2 ; \mathbf{Y} \mid \mathbf{X}^1\right)=0(证明略)

定义3:Sufficient Representation

对于representation Z1\mathbf{Z}^1Z2\mathbf{Z}^2,如果I(Z1;Y)=I(Z2;Y)=I(X1;X2;Y)I\left(\mathbf{Z}^1 ; \mathbf{Y}\right)=I\left(\mathbf{Z}^2 ; \mathbf{Y}\right)=I\left(\mathbf{X}^1 ; \mathbf{X}^2 ; \mathbf{Y}\right),那么Z1\mathbf{Z}^1Z2\mathbf{Z}^2是sufficent的。sufficient representation监督从输入中得到的足够的用于下游任务的信息。

定义4:Minimal Representation

对于representation Z1\mathbf{Z}^1Z2\mathbf{Z}^2,如果I(Z1;X1Y)=I(Z2;X2Y)=I(X1;X2Y)I\left(\mathbf{Z}^1 ; \mathbf{X}^1 \mid \mathbf{Y}\right)=I\left(\mathbf{Z}^2 ; \mathbf{X}^2 \mid \mathbf{Y}\right)=I\left(\mathbf{X}^1 ; \mathbf{X}^2 \mid \mathbf{Y}\right),那么Z1\mathbf{Z}^1Z2\mathbf{Z}^2是minimal的。minimal representation期望能够去除任务无关的信息,保留固定的间隙I(X1;X2Y)I\left(\mathbf{X}^1 ; \mathbf{X}^2 \mid \mathbf{Y}\right)

损失函数

sufficient和minimal的MVRL的通用形式为:

公式1maxI(Z1;Z2)s.t.minH(Z1Z2),minH(Z2Z1)公式1: \begin{align} & \max I\left(\mathbf{Z}^1 ; \mathbf{Z}^2\right)\\ & s.t. \min H\left(\mathbf{Z}^1 \mid \mathbf{Z}^2\right), \min H\left(\mathbf{Z}^2 \mid \mathbf{Z}^1\right) \end{align}

image-20220909103436239

上图是DCP的结构图,其由3个联合学习目标组成,视图内重构损失Lrec\mathcal{L}_{rec},跨视图双流对比损失Lcl\mathcal{L}_{cl},跨视图双流预测损失Lpre\mathcal{L}_{pre},最终的损失函数可以表示为:

公式2L=Lcl+λ1Lpre+λ2Lrec公式2:\mathcal{L}=\mathcal{L}_{cl}+\lambda_1\mathcal{L}_{pre}+\lambda_2\mathcal{L}_{rec}

其中λ1\lambda_1λ2\lambda_2平衡了Lpre\mathcal{L}_{pre}Lrec\mathcal{L}_{rec}。在实验中,这两个平衡因子都设置为0.1。

视图内重构损失

对于给定的数据集X={X(1,2),X(1),X(2)}\overline{\mathbf{X}}=\left\{\overline{\mathbf{X}}^{(1,2)}, \overline{\mathbf{X}}^{(1)}, \overline{\mathbf{X}}^{(2)}\right\},其由n个样本,X(1,2),X(1)\overline{\mathbf{X}}^{(1,2)}, \overline{\mathbf{X}}^{(1)}, 和X(2)\overline{\mathbf{X}}^{(2)} 分别表示在每个视图中共同显示的部分,只在第一个视图显示的部分,只在第二个视图显示的部分。具体来说X(1,2)\overline{\mathbf{X}}^{(1,2)}表示包含m个样本的完整数据集,而Xv\mathbf{X}^v表示第v个视图的数据,其中可能包含不完整的数据的样本。

第v个视图的数据通过一个特定的编码器得到representation Zv\mathbf{Z}^v,其使用Lrec\mathcal{L}_{rec}进行优化,具体公式如下:

公式3Lrec=v=12t=1mXtvg(v)(Ztv)22公式3:\mathcal{L}_{r e c}=\sum_{v=1}^2 \sum_{t=1}^m\left\|\mathbf{X}_t^v-g^{(v)}\left(\mathbf{Z}_t^v\right)\right\|_2^2

其中Xtv\mathbf{X}_t^v表示Xv\mathbf{X}^v的第t个样本,g(v)g^{(v)}是第v个视图的解码器,representation Ztv\mathbf{Z}_t^v的定义如下:

公式4Ztv=f(v)(Xtv),公式4:\mathbf{Z}_t^v=f^{(v)}\left(\mathbf{X}_t^v\right),

其中f(v)f^{(v)}是第v个视图的编码器。

双对比学习损失

使用对比学习来最大化多视图的一致性,以克服在不完整视图表征学习中的一致性学习挑战。其由实例级和类级约束损失构成,可以用下面的公式表示

公式5Lcl=Licl+Lccl,公式5:\mathcal{L}_{c l}=\mathcal{L}_{i c l}+\mathcal{L}_{c c l},

其中实例级对比损失 Licl\mathcal{L}_{i c l}尝试学习有信息和一致性的representation,在没有标签的帮助下用于不同的视图。类级对比损失 Lccl\mathcal{L}_{c c l}的目的是使用标签信息来增强可分性。

实例级对比学习:在使用自编码器学习的潜在特征空间中,使用对比学习最大化跨不同视图的一致性。本文提出直接最大化不同视图的representation之间的互信息。可以用下面的公式表示:

公式6Licl=t=1m(I(Zt1;Zt2)+α(H(Zt1)+H(Zt2))),公式6:\mathcal{L}_{i c l}=-\sum_{t=1}^m\left(I\left(\mathbf{Z}_t^1 ; \mathbf{Z}_t^2\right)+\alpha\left(H\left(\mathbf{Z}_t^1\right)+H\left(\mathbf{Z}_t^2\right)\right)\right),

其中IIHH分别表示互信息和熵,平衡因子α=9\alpha=9用于正则化熵。

{Zi}i=12\left\{\mathbf{Z}^i\right\}_{i=1}^2可以被认为是两个离散聚类分布变量zzzz^{\prime}在D类上的分布,其中D表示的是维数。理论上,我们能够使用PRD×D\mathbf{P} \in \mathcal{R}^{D \times D}定义联合概率分布P(z,z)\mathcal{P}\left(z, z^{\prime}\right)如下:

公式7P=1mt=1mZt1(Zt2)公式7:\mathbf{P}=\frac{1}{m} \sum_{t=1}^m \mathbf{Z}_t^1\left(\mathbf{Z}_t^2\right)^{\top}

边缘概率分布P(z=d)\mathcal{P}(z=d)P(z=d)\mathcal{P}\left(z^{\prime}=d^{\prime}\right)分别表示为Pd\mathbf{P}_dPd\mathbf{P}_d^{\prime}。他们能够通过对联合概率分布P\mathbf{P}的第dd行和第dd^{\prime}列求和得到。因此,公式6可以写为

公式8Licl=d=1Dd=1DPddlnPddPdα+1Pdα+1,公式8:\mathcal{L}_{i c l}=-\sum_{d=1}^D \sum_{d^{\prime}=1}^D \mathbf{P}_{d d^{\prime}} \ln \frac{\mathbf{P}_{d d^{\prime}}}{\mathbf{P}_d^{\alpha+1} \cdot \mathbf{P}_{d^{\prime}}^{\alpha+1}},

其中Pdd\mathbf{P}_{d d^{\prime}}P\mathbf{P}的第dd行和第dd^{\prime}列,α\alpha和公式6中定义的平衡因子相同。

类级对比学习:利用可用的标签信息去引导representation学习,在无监督学习中则不使用类级对比损失函数Lccl\mathcal{L}_{ccl}。在Zt=[Zt1;Zt2]\mathbf{Z}_t=\left[\mathbf{Z}_t^1 ; \mathbf{Z}_t^2\right]上执行Lccl\mathcal{L}_{ccl},其中[;][;]表示拼接操作

公式9Lccl=tm[EZT(y)S(Z,Zt)EZT(gt)S(Z,Zt)+γ]+公式9:\mathcal{L}_{c c l}=\sum_t^m\left[\mathbb{E}_{\mathbf{Z} \sim \mathcal{T}(y)} S\left(\mathbf{Z}, \mathbf{Z}_t\right)-\mathbb{E}_{\mathbf{Z} \sim \mathcal{T}(g t)} S\left(\mathbf{Z}, \mathbf{Z}_t\right)+\gamma\right]_{+}

其中gtg tZt,S(Z,Zt)=ZTZt\mathbf{Z}_t, S\left(\mathbf{Z}, \mathbf{Z}_t\right)=\mathbf{Z}^T \mathbf{Z}_t的ground truth,Zt,S(Z,Zt)=ZTZt\mathbf{Z}_t, S\left(\mathbf{Z}, \mathbf{Z}_t\right)=\mathbf{Z}^T \mathbf{Z}_t是点积形式的相似度函数。T(gt)\mathcal{T}(g t)是从ground truth标签gtgt得到的公共representation集合。T(y)\mathcal{T}(y)是从预测yy中得到的representation集合。γ\gamma是一个非负的常数,当预测正确时γ=0\gamma=0,预测错误时γ=1\gamma=1,预测标签yy可以用下面的方法计算:

公式10y=argmaxyYEZT(y)S(Z,Zt).公式10:y=\underset{y \in \mathcal{Y}}{\arg \max } \mathbb{E}_{\mathbf{Z} \sim \mathcal{T}(y)} S\left(\mathbf{Z}, \mathbf{Z}_t\right) .

双预测损失

使用一个变分分布Q(ZiZj)\mathcal{Q}\left(\mathbf{Z}^i \mid \mathbf{Z}^j\right)并最大化其下界EPZi,Zj[logP(ZiZj)]\mathbb{E}_{\mathcal{P}_{\mathbf{Z}^i, \mathbf{Z}^j}}\left[\log \mathcal{P}\left(\mathbf{Z}^i \mid \mathbf{Z}^j\right)\right]近似计算条件熵H(ZiZj)H\left(\mathbf{Z}^i \mid \mathbf{Z}^j\right)。这个变分分布Q\mathcal{Q}可以当做是一个高斯分布N(ZiG(j)(Zj),σI)\mathcal{N}\left(\mathbf{Z}^i \mid G^{(j)}\left(\mathbf{Z}^j\right), \sigma \mathbf{I}\right),其中σI\sigma \mathbf{I}是方差矩阵,G(j)()G^{(j)}(\cdot)是从Zj\mathbf{Z}^j中回复Zi\mathbf{Z}^i的参数模型。期望的最大化EPZi,Zj[logQ(ZiZj)]\mathbb{E}_{\mathcal{P}_{\mathbf{Z}^i, \mathbf{Z}^j}}\left[\log \mathcal{Q}\left(\mathbf{Z}^i \mid \mathbf{Z}^j\right)\right]等价于

公式11minEPZi,ZjG(j)(Zj)Zi22公式11:\min \mathbb{E}_{\mathcal{P}_{\mathbf{Z}^i, \mathbf{Z}^j}}\left\|G^{(j)}\left(\mathbf{Z}^j\right)-\mathbf{Z}^i\right\|_2^2

考虑两个视图数据,双预测损失可以用下面的形式表示:

公式12Lpre =G(1)(Z1)Z222+G(2)(Z2)Z122公式12:\mathcal{L}_{\text {pre }}=\left\|G^{(1)}\left(\mathbf{Z}^1\right)-\mathbf{Z}^2\right\|_2^2+\left\|G^{(2)}\left(\mathbf{Z}^2\right)-\mathbf{Z}^1\right\|_2^2

在训练完成后,使用整个数据集到网络中,并得到所有视图的representation,对于缺失视图(X(1),X(2)\overline{\mathbf{X}}^{(1)}, \overline{\mathbf{X}}^{(2)}),我们通过双流预测,从已有的representation Z(j)\overline{\mathbf{Z}}^{(j)}中恢复缺失的表征Z^(i)\hat{\mathbf{Z}}^{(i)}

公式13Z^(i)=G(j)(Z(j))=G(j)(f(j)(X(j)))公式13:\hat{\mathbf{Z}}^{(i)}=G^{(j)}\left(\overline{\mathbf{Z}}^{(j)}\right)=G^{(j)}\left(f^{(j)}\left(\overline{\mathbf{X}}^{(j)}\right)\right)

其中Z(j)\overline{\mathbf{Z}}^{(j)}X(j)\overline{\mathbf{X}}^{(j)}的representation。通过简单地拼接所有的视图特定representation来推导出公共representation Z\mathbf{Z}。具体来说,对于完整的样本,Z=[Z1;Z2]\mathbf{Z}=\left[\mathbf{Z}^1 ; \mathbf{Z}^2\right],对于不完整的样本,Z=[Z^(1);Z(2)]\mathbf{Z}=\left[\hat{\mathbf{Z}}^{(1)} ; \overline{\mathbf{Z}}^{(2)}\right],或者Z=[Z(1);Z^(2)]\mathbf{Z}=\left[\overline{\mathbf{Z}}^{(1)} ; \hat{\mathbf{Z}}^{(2)}\right]

用于多个视图的对比预测

image-20220909152137216

有两种通用的公式去解决多个视图的对比预测问题:基于核心视图的方法(DCP-CV),基于完整图的方法(DCP-CG)

给定有VV个视图的数据集{Xi}i=1V\left\{\mathbf{X}^i\right\}_{i=1}^V,DCP-CV选择一个重要的视图作为中心,按照下面的公式执行X1\mathbf{X}^1和其他视图Xj\mathbf{X}^j之间的双对比预测:

公式14LDCPCV=i=2VLip(Z1,Zi)+λ2i=1VLrec (Zi)+Lcd公式14:\mathcal{L}_{\mathrm{DCP}-\mathrm{CV}}=\sum_{i=2}^V \mathcal{L}_{i p}\left(\mathbf{Z}^1, \mathbf{Z}^i\right)+\lambda_2 \sum_{i=1}^V \mathcal{L}_{\text {rec }}\left(\mathbf{Z}^i\right)+\mathcal{L}_{c d}

其中Lip=Licl+λ1Lpre,λ1\mathcal{L}_{i p}=\mathcal{L}_{i c l}+\lambda_1 \mathcal{L}_{p r e}, \lambda_1λ1\lambda_1λ2\lambda_2和公式2中的定义相同,使用公共representation实现类级对比损失Lccl \mathcal{L}_{\text {ccl }}

DCP-CG在所有可能的视图对上执行实例级对比学习和双约束,

公式15LDCPCG=1i<jVLip(Zi,Zj)+λ2i=1VLrec(Zi)+Lccl公式15:\mathcal{L}_{\mathrm{DCP-CG}}=\sum_{1 \leq i<j \leq V} \mathcal{L}_{i p}\left(\mathbf{Z}^i, \mathbf{Z}^j\right)+\lambda_2 \sum_{i=1}^V \mathcal{L}_{r e c}\left(\mathbf{Z}^i\right)+\mathcal{L}_{c c l}

虽然DCP-CV和DCP-CG都能够学习足够和最小的representation,但我们推荐后者的原因如下:一方面,为了一致性学习,DCP-CG将捕获更多的信息,因为所有的视图对都在学习阶段被包含和利用。DCP-CG视图最大化v(v1)/2v(v-1)/2次,而DCP-CV值最大化v1v-1次。另一方面,DCP-CG比DCP-CV再执行数据恢复方面展示出更强的鲁棒性。