Introduction

本文提出了一种新型的Graph Contrastive Learning构造Contrastive pairs的方式，即将跨图的同维度特征作为positive pairs，不同维度特征作为negative pairs。和过去的GCL方法相比，本文无需互信息估计器（MI Estimator），映射头（Projector），不对称结构（asymmetric structures）。并且理论证明了该方法可以看做Information Bottleneck 原则在自监督设置下的实例。

具体来说，受典型相关分析（From Canonical Correlation Analysis）的启发，本文提出了一种简单有效的GCL框架，从而是模型避免复杂难以理解多模块设计。和过去的方法相同的是，为输入图以随机增强的方式生成两个view，目的是为两个view学习共享的 node representations 通过共享的GNN Encoder。不同在于，本文利用了典型相关分析（CCA），具体来说，新目标旨在最大化同一输入的两个增强views之间的相关性，同时对单个视图表示的不同（特征）维度进行去相关（避免不同维度捕获相同信息，即同一个view内的不同维度channel互为negative pairs）。这么做的目的是 1）本质上追求的是丢弃增强后变化的信息，同时保留增强后不变的信息，以及 2）防止维度崩溃（即不同维度捕获相同的信息）。

和其他方法的对比如上图所示，本文提出的CCA-SSG无需negative pairs，参数化的互信息估计器， projection head或者不对称结构。对比对的数量仅为 $O (D^{2})$ , 其中 $D$ 为输出维度。

Canonical Correlation Analysis

CCA: Identify and Quantify the associations between two sets of variables，即CCA用来衡量两组随机变量的相关性，每组可能有很多Random Variables.

从相关系数引入：

Pearson 相关系数：给定两组数据集 $X$ ， $Y$ 。其中 $X \in R^{N \times 1}$ 表示只有一个随机变量（属性），样本数为 $N$ 。 $Y \in R^{M \times 1}$ : 一个随机变量，样本量为 $M$ 。那么Pearson 相关系数 $ρ$ 定义为： $ρ (X, Y) = \frac{Cov (X, Y)}{σ_{X} σ_{Y}}$ 其中 $σ_{X}$ ， $σ_{Y}$ 分别为 $X$ 和 $Y$ 的标准差。 $Cov (X, Y)$ 为 $X$ , $Y$ 的协方差。 $ρ \in [- 1, 1]$ 。 $ρ$ 越接近1， $X$ 和 $Y$ 的线性相关性越高。 $ρ$ 越接近0， $X$ 和 $Y$ 的线性相关性月底。

相关系数存在问题：相关系数不适用于高维数据。如果 $X$ 是2维的（2个属性，例如身高和体重）， $Y$ 也是2维的，属性为(跑步，跳远)， $X \in R^{N \times 2}$ , $Y \in R^{M \times 2}$ 。此时，相关系数 $ρ$ 無法計算2維隨機變量的相關程度。

CCA 基本思想

$X$ 和 $Y$ 为两个变量集合，例如 $X$ 中有两个随机变量（2维）， $Y$ 中也有两个随机变量。要衡量变量间的相关性：现将高维随机变量（即多个随机变量）降到一维（一个随机变量），再用相关系数计算相关性。

令 $X = {x_{1}, x_{2}} \in R^{n_{1} \times m}$ ，表示 $n_{1} = 2$ 个随机变量， $m$ 个样本。 $Y = {y_{1}, y_{2}} \in R^{n_{2} \times m}$ 表示 $n_{2} = 2$ 个随机变量， $m$ 个样本。

$U$ 为随机变量集合 $X$ 的线性组合： $U = a_{1} x_{1} + a_{2} x_{2} = [a_{1}, a_{2}] [\begin{matrix} x_{1} \\ x_{2} \end{matrix}] = a^{⊤} X$ $V$ 为随机变量集合 $Y$ 的线性组合： $V = b_{1} y_{1} + b_{2} x_{2} = b^{⊤} Y$ CCA的优化目标：找到一组最优解 $a$ 和 $b$ ，使得 $ρ_{U, V}$ 最大： $\arg max_{a, b} ρ_{U, V} = \frac{Cov (U, V)}{σ_{U} σ_{V}}$ 得到的 $a$ , $b$ 是使得 $X$ 与 $Y$ 有最大关联的权重。

CCA的表示与求解

输入：两个随机变量集合 $X = {x_{1}, \dots, x_{n}}$ , $Y = {y_{1}, \dots, y_{m}}$ 。分别有 $n$ 个和 $m$ 个随机变量。

$X$ 是一个 $n \times L$ 的矩阵，即有 $L$ 个样本， $n$ 个属性（ $n$ 个随机变量）。

$Y$ 是一个 $m \times L$ 的矩阵， $L$ 个样本， $m$ 个属性。

$U = a^{⊤} X \in R^{1 \times L}$ , $V = b^{⊤} Y \in R^{1 \times L}$ , 分别将组高维随机变量转为一维。目标函数为 $\arg max_{a, b} ρ_{U, V} = \arg max_{a, b} \frac{Cov (U, V)}{σ_{U} σ_{V}}$ 设 $Σ_{X X} = Cov (X, X) = Var (X)$ ， $Σ_{Y Y} = Cov (Y, Y) = Var (Y)$ ， $Σ_{X Y} = Cov (X, Y)$ ， $E [X] = μ_{X} \in R^{n \times 1}$ （样本均值）， $E [Y] = μ_{Y} \in R^{m \times 1}$ 。

定义 $X$ 为一个 $n$ 个随机变量stack成的列向量： $X = [\begin{matrix} x_{1} \\ \dots \\ x_{n} \end{matrix}] \in R^{n \times L}$ $C$ 为 $n$ 个scalars $c_{1}, \dots, c_{n}$ stack成的列向量： $C = [\begin{matrix} c_{1} \\ \dots \\ c_{n} \end{matrix}]$ $C^{⊤} X$ 是这 $n$ 个Random Variables的线性组合。 $C^{⊤} X$ 的方差为： $Var (C^{⊤} X) = C^{⊤} Σ_{X X} C = C^{⊤} Var (X) C$ 那么 $Var (U) = Var (a^{⊤} X) = a^{⊤} Var (X) a$ 。

每个随机变量 $x_{i}$ 为数据的第 $i$ 个特征，每列为一个样本 $X \in R^{n \times L}$ 。有 $L$ 个样本，对特征维度做标准化，也就是对每个维度 $x_{i}$ 做标准化，可得 $E (x_{i}) = 0$ , $Var (x_{i}) = 1$ 。 $\begin{aligned} Var (X) & = E (X - E (X))^{2} \\ = E ([\begin{array}{c} x_{1} \\ \dots \\ x_{n} \end{array}] - [\begin{array}{c} μ_{1} \\ \dots \\ μ_{n} \end{array}])^{2} \\ = E ({[\begin{array}{c} x_{1} \\ \dots \\ x_{n} \end{array}]}^{2}) \\ = E (X X^{⊤}) \end{aligned}$ 所以 $Var (U) = a^{⊤} E (X X^{⊤}) a$ ，同理 $Var (V) = b^{⊤} E (Y Y^{⊤}) b$ 。另外： $E (a^{⊤} X) = E (a_{1} x_{1} + \dots + a_{n} x_{n}) = a_{1} E (x_{1}) + \dots + a_{n} E (x_{n}) = 0$ 那么： $\begin{aligned} Cov (U, V) & = Cov (a^{⊤} X, b^{⊤} Y) \\ = E [⟨ a^{⊤} X - E (a^{⊤} X), b^{⊤} Y - E (b^{⊤} Y) ⟩] \\ = E [⟨ a^{⊤} X, b^{⊤} Y ⟩] \\ = E [(a^{⊤} X) (b^{⊤} Y)^{⊤}] \\ = E [a^{⊤} X Y^{⊤} b] \\ = a^{⊤} E [X Y^{⊤}] b \end{aligned}$

$\begin{aligned} Var (X) & = Cov (X, X) = E [X X^{⊤}] \\ Var (Y) & = Cov (Y, Y) = E [Y Y^{⊤}] \\ Cov (X, Y) & = E [⟨ X - μ_{X}, Y - μ_{Y} ⟩] = E [X Y^{⊤}] = Σ_{X Y} \\ Cov (Y, X) & = E [Y X^{⊤}] \end{aligned}$

优化目标转化为： $\begin{aligned} \arg max_{a, b} ρ_{U, V} & = \arg max_{a, b} \frac{Cov (U, V)}{σ_{U} σ_{V}} \\ = \arg max_{a, b} \frac{a^{⊤} Σ_{X Y} b}{\sqrt{a^{⊤} Σ_{X X} a} \sqrt{b^{⊤} Σ_{Y Y} b}} \end{aligned}$ 若对 $a$ ， $b$ 同时放缩，即 $a$ 放缩 $k$ 倍， $b$ 放缩 $l$ 倍，公式的值不会改变： $\frac{k a^{⊤} Σ_{X Y} l b}{\sqrt{k a^{⊤} Σ_{X X} k a} \sqrt{l b^{⊤} Σ_{Y Y} l b}} = \frac{a^{⊤} Σ_{X Y} b}{\sqrt{a^{⊤} Σ_{X X} a} \sqrt{b^{⊤} Σ_{Y Y} b}}$ 所以，可以直接对 $a$ 做放缩，使得 $a^{⊤} Σ_{X X} a = 1$ , 对 $b$ 做放缩，使得 $b^{⊤} Σ_{Y Y} b = 1$ （类似于SVM）。那么优化目标转化为： $\begin{aligned} max_{a, b} a^{⊤} Σ_{X Y} b, \\ s.t. a^{⊤} Σ_{X X} a = b^{⊤} Σ_{Y Y} b = 1 \end{aligned}$ 对于两个向量集合 $X_{1}$ 和 $X_{2}$ ， CCA 寻求两组向量最大化它们的相关性，并受到它们彼此不相关的约束。后来的研究通过用神经网络代替线性变换，将 CCA 应用于具有深度模型的多视图学习。具体来说，假设 $X_{1}$ 和 $X_{2}$ 作为输入数据的两个视图，CCA的优化目标为： $\begin{matrix} (1) & max_{θ_{1}, θ_{2}} Tr (P_{θ_{1}}^{⊤} (X_{1}) P_{θ_{2}} (X_{2})) s.t. P_{θ_{1}}^{⊤} (X_{1}) P_{θ_{1}} (X_{1}) = P_{θ_{2}}^{⊤} (X_{2}) P_{θ_{2}} (X_{2}) = I . \end{matrix}$ 其中， $P_{θ_{1}}$ 和 $P_{θ_{2}}$ 为两个Neural Network。尽管上式很精确，但这种计算确实很昂贵。Soft CCA 通过采用以下拉格朗日松弛, 消除了hard decorrelation constraint： $min_{θ_{1}, θ_{2}} L_{dist} (P_{θ_{1}} (X_{1}), P_{θ_{2}} (X_{2})) + λ (L_{S D L} (P_{θ_{1}} (X_{1})) + L_{S D L} (P_{θ_{2}} (X_{2})))$ 其中 $L_{dist}$ 用于衡量两个view的representations之间的相关性， $L_{S D L}$ (stochastic decorrelation loss)计算 $P_{θ_{i}} (X_{i})$ 和identity matrix之间的 $L_{1}$ 距离。

Approach

模型包含3个模块 1. 随机图增强器 $T$ ，2. GNN encoder $f_{θ}$ , 3. 基于CCA的feature-level对比损失。

Graph Augmentations

本文利用 edge droping和 node feature masking两种graph corruption方式来对输入图做增强。 $T$ 是所有可能的转换操作， $t \sim T$ 表示图 $G$ 的一种特定的转换。比如删除一条边的操作 $t_{r}$ 就是 $T$ 中的一个变换。

Training

从 $T$ 随机采样两种图变换 $t_{A}$ 和 $t_{B}$ 。生成两个View: ${\tilde{G}}_{A} = ({\tilde{X}}_{A}, {\tilde{A}}_{A})$ 和 ${\tilde{G}}_{B} = ({\tilde{X}}_{B}, {\tilde{A}}_{B})$ ，经过共享的GNN后，得到输出 $Z_{A} = f_{θ} ({\tilde{X}}_{A}, {\tilde{A}}_{A})$ ， $Z_{B} = f_{θ} ({\tilde{X}}_{B}, {\tilde{A}}_{B})$ 。然后对feature dimensionzuo normalization (列标准化)，是的每个特征维度均值为0，标准差为 $1 / \sqrt{N}$ ：

$\tilde{Z} = \frac{Z - μ (Z)}{σ (Z) * \sqrt{N}}$

Inference

基于公式（1）,使用公式(1)中的CCA目标函数，将向量集定义为输出 $\tilde{Z}$ 的列向量，最终CCA-SSG的目标函数定义如下： $L = \underset{invariance term}{\underset{⏟}{{| | {\tilde{Z}}_{A} - {\tilde{Z}}_{B} | |}_{F}^{2}}} + λ \underset{decorrelation term}{\underset{⏟}{({| | {\tilde{Z}}_{A}^{⊤} {\tilde{Z}}_{A} - I | |}_{F}^{2} + {| | {\tilde{Z}}_{B}^{⊤} {\tilde{Z}}_{B} - I | |}_{F}^{2})}}$ 第二项中，要求不同特征之间的相似度尽可能低，从而使得不同特征捕获不同的语义信息。

Introduction#

Canonical Correlation Analysis#

CCA 基本思想#

CCA的表示与求解#

Approach#

Graph Augmentations#

Training#

Inference#