当目标函数中有不可微部分时，可使用近端梯度下降来优化（Proximal Gradient Descent）

假设目标函数如下： $f (w) = g (w) + h (w)$ 其中 $g (w)$ 是可微凸函数， $h (w)$ 是不可微（或局部不可微）凸函数。以线性回归为例，

给定 $X \in R^{m \times n}$ , $y \in R^{m}$ ， Ridge Regression的目标函数为

$f (w) = \underset{g (w)}{\underset{⏟}{\frac{1}{2} | | y - X w | |_{2}^{2}}} + \underset{h (w)}{\underset{⏟}{λ | | w | |_{2}}}$ 因为 $ℓ_{2}$ norm处处可导，所以Ridge可以用SGD或GD来直接优化。但是若目标函数为Lasso，即正则化项定义为 $ℓ_{1}$ norm: $f (w) = \underset{g (w)}{\underset{⏟}{\frac{1}{2} | | y - X w | |_{2}^{2}}} + \underset{h (w)}{\underset{⏟}{λ | | w | |_{1}}}$ 这里 $h (w) = λ | | w | |_{1}$ 在 $w = 0$ 处不可导，那么可用PGD来优化。

Proximity Operator

近端算子：对于不可微函数 $h (w)$ , $h (w)$ 的proximity operator定义为：

$u^{*} = {prox}_{h} (w) = \underset{u}{\arg min} (h (u) + \frac{1}{2} | | u - w | |_{2}^{2})$ 近端算子 ${prox}_{h} (w)$ 只和不可微凸函数 $h (\cdot)$ 有关。上式含义，给定一个不可微凸函数 $h (\cdot)$ , 给定向量 $w \in R^{n}$ , 找到向量 $u = u^{*}$ , 使得公式 $h (u) + \frac{1}{2} | | u - w | |_{2}^{2}$ 最小。这个 $u^{*} = {prox}_{h} (w)$ 就是 $h (\cdot)$ 在给定 $w$ 条件下的近端算子（Proximity Operator）。 $u^{*} = {prox}_{h} (w)$ 要求最佳的 $u^{*}$ 可以使得函数值 $h (u^{*})$ 尽可能小，同时 $u^{*}$ 要尽可能接近给定的 $w$ 。

基于后面的公式推导，我们给 ${prox}_{h} (w)$ 添加一个参数 $γ$ : $u^{*} = {prox}_{h γ} (w) = \underset{u}{\arg min} (h (u) + \frac{1}{2 γ} | | u - w | |_{2}^{2})$ 上式表示，给定一个不可微凸函数 $h (\cdot)$ ，一个给定的点 $w$ , 一个参数 $γ$ , 要找到一个 $u = u^{*}$ , 使得 $u^{*}$ 带入公式 $h (u) + \frac{1}{2 γ} | | u - w | |_{2}^{2}$ 的到的结果最小。 ${prox}_{h γ} (w)$ 是使得 $h (u) + \frac{1}{2 γ} | | u - w | |_{2}^{2}$ 最小的输入 $u$ 。

因为 $h (u)$ 和 $| | u - w | |_{2}^{2}$ 都为凸函数，所以一定存在 $u^{*}$ 使得函数值最小，这个 $u^{*} = {prox}_{h γ} (w)$ 要求使得 $h (u^{*})$ 尽可能小（第一项），同时 $u^{*}$ 要尽可能接近给定的 $w$ （第二项）。

例子：

若 $h (w) = 0$ , ${prox}_{h γ} (w) = u^{*} = w$ 。
当 $h (w) = | | w | |_{1}$ 时， ${prox}_{h γ} (w) = {prox}_{| | \cdot | |_{1} γ} (w)$ 是软阈值操作

$u^{*} = {({prox}_{h γ} (w))}_{i} = {\begin{cases} w_{i} - γ & w_{i} \geq γ \\ 0 & | w_{i} | \leq γ \\ w_{i} + γ & w_{i} \leq - γ \end{cases}$

如果在 $ℓ_{1}$ norm前加上参数 $λ$ ，即 $h (w) = λ | | w | |_{1}$ ，那么近端算子为： $u^{*} = {({prox}_{h γ} (w))}_{i} = {\begin{cases} w_{i} - λ γ & w_{i} \geq λ γ \\ 0 & | w_{i} | \leq λ γ \\ w_{i} + λ γ & w_{i} \leq - λ γ \end{cases}$

近端梯度算法

回到Lasso 回归，要求解： $min_{w} (g (w) + h (w))$ $w$ 可以通过递推式求出： $w^{k} = {prox}_{h γ} (w^{k - 1} - γ \nabla g (w^{k - 1}))$ 为什么可以通过不断迭代迭代上式来求解最佳的 $w^{K}$ , 使得 $g (w) + h (w)$ 收敛到最小？下面先给出证明 $\begin{aligned} w^{k} & = {prox}_{h γ} (w^{k - 1} - γ \nabla g (w^{k - 1})) \\ = \underset{u}{argmin} (\underset{h (u) 尽可能小}{\underset{⏟}{h (u)}} + \frac{1}{2 γ} {| | \underset{u 尽可能接近 w^{k - 1} - γ \nabla g (w^{k - 1})}{\underset{⏟}{u - (w^{k - 1} - γ \nabla g (w^{k - 1}))}} | |}_{2}^{2}) \\ = \underset{u}{argmin} (h (u) + \frac{1}{2 γ} {| | (u - w^{k - 1}) + γ \nabla g (w^{k - 1}) | |}_{2}^{2}) \\ = \underset{u}{argmin} (h (u) + \underset{γ 和 w^{k - 1} 给定，所以该项与 u 无关，视为常数，可省略}{\underset{⏟}{\frac{γ}{2} {| | \nabla g (w^{k - 1}) | |}_{2}^{2}}} + {(u - w^{k - 1})}^{T} \nabla g (w^{k - 1}) + \frac{1}{2 γ} {| | u - w^{k - 1} | |}_{2}^{2}) \\ = \underset{u}{argmin} (h (u) + \underset{添加与 u 无关的项，不影响结果}{\underset{⏟}{g (w^{k - 1})}} + {(u - w^{k - 1})}^{T} \nabla g (w^{k - 1}) + \frac{1}{2 γ} {| | u - w^{k - 1} | |}_{2}^{2}) (5) \\ \approx \underset{u}{\arg min} (g (u) + h (u)) \end{aligned}$ 整个过程不涉及对 $h (u)$ 求梯度

最后两步怎么来的？

泰勒展开式：
$f (x) = \frac{f (a)}{0!} + \frac{f^{'} (a)}{1!} (x - a) + \frac{f^{''} (a)}{2!} {(x - a)}^{2} + \dots + \frac{f^{(n)} (a)}{n!} {(x - a)}^{n}$

对 $g (u)$ 做泰勒展开，令 $a = w^{k - 1}$ : $\begin{aligned} g (u) & = g (w^{k - 1}) + (u - w^{k - 1})^{T} \nabla g (w^{k - 1}) + ⟨ u - w^{k - 1}, u - w^{k - 1} ⟩ \nabla^{2} g (w^{k - 1}) \\ \approx (5) 式最后三项 \end{aligned}$ 综上： $\begin{aligned} w^{k} & = {prox}_{h γ} (w^{k - 1} - γ \nabla g (w^{k - 1})) \\ \approx \underset{u}{\arg min} (g (u) + h (u)) \end{aligned}$ 所以通过迭代的方式求 $w^{k} = {prox}_{h γ} (w^{k - 1} - γ \nabla g (w^{k - 1}))$ 就是 $min_{w} (g (w) + h (w))$ 的迭代递推求解过程。

求解 $ℓ_{1}$ 范数

将求解问题转为递推式。

现在我们有问题，形式为： $min_{w} (\underset{凸可微}{\underset{⏟}{g (w)}} + \underset{h (w) 凸不可微}{\underset{⏟}{λ {| | w | |}_{1}}})$ 找到最佳 $w$ 使得上式最小的过程可以迭代递推为： $\begin{aligned} w^{k + 1} & = {prox}_{λ | | \cdot | |_{1} γ} (w^{k} - γ \nabla g (w^{k})) \\ = \underset{u}{\arg min} (λ {| | u | |}_{1} + \frac{1}{2 γ} | | u - (w^{k} - γ \nabla g (w^{k})) | |_{2}^{2}) \end{aligned}$

求解Lasso回归

待求解问题形如： $min_{w} (\frac{1}{2} | | X w - y | |_{2}^{2} + r | | w | |_{1})$ 可见第一项可微，第二项为 $ℓ_{1}$ norm 在 $w = 0$ 处不可微。

根据递推式： $w^{k + 1} = {prox}_{λ | | \cdot | |_{1} γ} (\underset{z^{k}}{\underset{⏟}{w^{k} - γ \nabla g (w^{k})}})$ 令 $z^{k} = w^{k} - γ \nabla g (w^{k})$ , 上式可改写为

因为learning step size $γ$ 与 $w$ 无关，所以上式可以改写为： $\begin{aligned} w^{k + 1} & = {prox}_{λ | | \cdot | |_{1} γ} (z^{k}) \\ = \underset{w}{\arg min} (λ {| | w | |}_{1} + \frac{1}{2 γ} | | w - z^{k} | |_{2}^{2}) \\ = \underset{w}{\arg min} (λ γ {| | w | |}_{1} + \frac{1}{2} | | w - z^{k} | |_{2}^{2}) \end{aligned}$

$∵ g (w^{k}) = \frac{1}{2} | | X w - y | |_{2}^{2}$

$∴ \nabla g (w^{k}) = X^{T} (X w^{k} - y) = X^{T} X w^{k} - X^{T} y$

$∴ z^{k} = w^{k} - γ (X^{T} X w^{k} - X^{T} y)$

把 $z^{k}$ 带入 $w^{k + 1}$ 中： $\begin{aligned} w^{k + 1} & = {prox}_{λ | | \cdot | |_{1} γ} (z^{k}) \\ = {prox}_{λ | | \cdot | |_{1} γ} (w^{k} - γ X^{T} X w^{k} + γ X^{T} y) \end{aligned}$ 因为 ${({prox}_{λ | | \cdot | |_{1} γ} (w))}_{i} = {\begin{cases} w_{i} - λ γ & w_{i} \geq λ γ \\ 0 & | w_{i} | \leq λ γ \\ w_{i} + λ γ & w_{i} \leq - λ γ \end{cases}$ ,

所以 $w^{k}$ 到 $w^{k + 1}$ 的迭代优化方式如下： $w_{i}^{k + 1} = {({prox}_{λ | | \cdot | |_{1} γ} (z^{k}))}_{i} = {\begin{cases} z_{i}^{k} - λ γ & z_{i}^{k} \geq λ γ \\ 0 & | z_{i}^{k} | \leq λ γ \\ z_{i}^{k} + λ γ & z_{i}^{k} \leq - λ γ \end{cases}$ 其中 $z_{i}^{k}$ 是 $z^{k}$ 的第 $i$ 行。

Reference

https://blog.csdn.net/Chaolei3/article/details/81320940

https://zhuanlan.zhihu.com/p/82622940

http://roachsinai.github.io/2016/08/03/1Proximal_Method/

Proximity Operator#

近端梯度算法#

求解ℓ1 范数#

求解Lasso回归#

Reference#

Proximity Operator

近端梯度算法

求解 $ℓ_{1}$ 范数

求解Lasso回归

Reference