2022-01-12
很多非凸优化方法研究的问题,都是凸集上的非凸函数最小化。然而,实际中,问题的非凸性可能不来自于目标函数,而是来自于约束函数。最近,文献 [1] 提出了 Nonconvex Exterior-point Optimization Solver (NExOS) ,用于解决非凸集上的凸函数最小化问题,其可能在无线通信的一些场景中发挥作用。
考虑凸函数在非凸约束下的最小化问题:
\[\min_ {\mathbf{x}\in\mathcal{X}}\;f(\mathbf{x})+\frac{\beta}{2}\lVert\mathbf{x}\rVert^2,\tag{1}\]其中,$f(\mathbf{x})$ 为凸函数(正则化项 $\frac{\beta}{2}\lVert\mathbf{x}\rVert^2$ 是文献为了收敛性证明所额外引入的,实际 $\beta$ 可取一很小值,如 $10^{-8}$);可行域 $\mathcal{X}$ 为一闭集,可能非凸,但满足在局部最优点处具有 Prox-regular 性质:集合 $\mathcal{X}$ 在点 $\mathbf{x}\in\mathcal{X}$ 处是 Prox-regular 的,当其在 $\mathbf{x}$ 邻域内的投影具有单值(singleton)。Prox-regular 集可被视为闭凸集的一种弱化(到闭凸集的投影一定是单值的)。
文章考虑了两种 Prox-regular 非凸集:
注意,Prox-regular 集和有界闭凸集的交集会继承 Prox-regular 性质,也就是说,问题 (1) 中除约束 $\mathcal{N}$ 外,还可以包含其它凸约束。
首先,引入集合 $\mathcal{X}$ 的示性函数 $\iota(\mathbf{x})$,其当 $\mathbf{x}\in\mathcal{X}$ 时取 $0$,否则取 $+\infty$。问题 (1) 可以表示为无约束的形式:
\[\min_ {\mathbf{x}}\;f(\mathbf{x})+\frac{\beta}{2}\lVert\mathbf{x}\rVert^2+\iota(\mathbf{x}).\tag{2}\]为了处理 $\iota(\mathbf{x})$ 的非凸性,进一步将 $\iota(\mathbf{x})$ 替换为其 Moreau 包络:
\[{}^\mu\iota(\mathbf{x})=\min_ {\mathbf{y}}\;\iota(\mathbf{y})+\frac{1}{2\mu}\lVert\mathbf{y}-\mathbf{x}\rVert^2\\ =\min_ {\mathbf{y}\in\mathcal{X}}\;\frac{1}{2\mu}\lVert\mathbf{y}-\mathbf{x}\rVert^2=\frac{1}{2\mu}d^2(\mathbf{x}),\tag{3}\]其中,$d(\mathbf{x})$ 点 $\mathbf{x}$ 到集合 $\mathcal{X}$ 的欧氏距离函数。相比于 $\iota(\mathbf{x})$,函数 ${}^\mu\iota(\mathbf{x})$ 具有性质:
从而,可以获得问题 (2) 的一个渐近精确近似:
\[\mathcal{P}_ \mu:\;\;\min_ \mathbf{x}\;f(\mathbf{x})+\underbrace{\frac{\beta}{2}\lVert\mathbf{x}\rVert^2+{}^\mu\iota(\mathbf{x})}_ {g_ \mu(\mathbf{x})}.\tag{4}\]由此,通过逐次求解子问题 $\mathcal{P}_ \mu$,随着 $\mu$ 的减小,最终逼近原问题 (1) 的(局部)最优解。Algorithm 1 给出了 NExOS 算法的全貌:

其中,$\pmb{\Pi}$ 表示到可行域 $\mathcal{X}$ 的投影算子,即 $\pmb{\Pi}(\mathbf{x})=\mathrm{prox}_ {\mu\iota}(\mathbf{x})=\arg\min_ {\mathbf{x}}{}^\mu\iota(\mathbf{x})=\arg\min_ {\mathbf{x}\in\mathcal{X}}\;\lVert\mathbf{y}-\mathbf{x}\rVert^2$,终止条件表示 $\mathcal{P}_ \mu$ 的目标函数足够接近原始的目标函数。
单纯从形式上看,NExOS 算法其实就是一种外点罚函数法(惩罚函数 $\mu\beta\lVert\cdot\rVert^2+d^2(\cdot)$,罚因子 $\frac{1}{2\mu}$ )。其优势在于,通过利用可行域 的 Prox-regular 性质,Algorithm 1 保证了:
无约束子问题 $\mathcal{P}_ \mu$ 可以使用邻近分裂方法(Proximal Splitting Method)进行求解,文章使用了 Douglas-Rachford 分裂算法[2]:
\[\mathbf{0}\in\gamma\partial(f+g_ \mu)(\mathbf{x})=\gamma\partial f(\mathbf{x})+\gamma\partial g_ \mu(\mathbf{x})\;\Rightarrow\;\begin{cases} \mathbf{x}:=\mathrm{prox}_ {\gamma f}(\mathbf{z})\\ \mathbf{y}:=\mathrm{prox}_ {\gamma g_ \mu}(2\mathbf{x}-\mathbf{z})\\ \mathbf{z}:=\mathbf{z}+\mathbf{y}-\mathbf{x} \end{cases}\,.\tag{5}\]代入 $g_ \mu(\cdot)=\frac{\beta}{2}\lVert\cdot\rVert^2+{}^\mu\iota(\cdot)$,并利用 $\mathrm{prox}_ {\gamma g_ \mu}(\mathbf{x})=\kappa\theta\mathbf{x}+(1-\theta)\pmb{\Pi}(\kappa\mathbf{x})$,其中 $\kappa=\frac{1}{\beta\gamma+1}$ 和 $\theta=\frac{\mu}{\gamma\kappa+\mu}$,即得到求解子问题 $\mathcal{P}_ \mu$ 的 Algorithm 2,如下所示:

其中,$\pmb{\Pi}$ 表示到可行域 $\mathcal{X}$ 的投影算子,即 $\pmb{\Pi}(\mathbf{x})=\arg\min_ {\mathbf{x}\in\mathcal{X}}\;\lVert\mathbf{y}-\mathbf{x}\rVert^2$,利用 $\mathcal{X}$ 的 Prox-regular 性质,$\pmb{\Pi}(\mathbf{x})$ 在局部最优点附近具有单值。对于充分大的 $\mu$,容易找到初始点 $\mathbf{z}^ 0$ 落在 $\mathcal{P}_ \mu$ 满足强凸且光滑的区域内,因此 Algorithm 2 线性收敛到 $\mathcal{P}_ \mu$ 的局部最优解。
Algorithm 2 的主要操作在于计算两个邻近算子 $\mathrm{prox}_ {\gamma f}$ 和 $\pmb{\Pi}=\mathrm{prox}_ {\gamma\iota}$。对于后者,文章考虑的两种非凸约束都对应闭式的投影算子:
对于 $\mathrm{prox}_ {\gamma f}$,文章主要讨论主要是二次函数 $f(\cdot)$,其邻近算子具有闭式解;对于更一般的函数,可能需要进行数值计算(求解一个无约束凸优化问题)。如果函数 $f$ 是光滑的,一种可能的改进是使用 Forward-Backward 分裂算法[2]求解 $\mathcal{P}_ \mu$——
\[\mathbf{0}\in\gamma\partial(f+g_ \mu)(\mathbf{x})=\gamma\nabla f(\mathbf{x})+\gamma\partial g_ \mu(\mathbf{x})\;\Rightarrow\;\begin{cases} \mathbf{x}:=\mathbf{z}-\gamma\nabla f(\mathbf{z})\\ \mathbf{y}:=\mathrm{prox}_ {\gamma g_ \mu}(\mathbf{x})\\ \mathbf{z}:=\mathbf{z}+\mathbf{y}-\mathbf{x} \end{cases}\,.\tag{6}\]此时,Algorithm 2 的步骤 5 改为梯度下降:$\mathbf{x}^{n+1}:=\mathbf{z}^n-\gamma\nabla f(\mathbf{z}^n)$,即只需要计算 $\nabla f$。
[1] Gupta S D , Stellato B , Parys B V . Exterior-point Optimization for Nonconvex Learning[J]. arXiv e-prints arXiv:2011.04552v5, 2021.
[2] Komodakis N, Pesquet J C. Playing with duality: An overview of recent primal dual approaches for solving large-scale optimization problems[J]. IEEE Signal Processing Magazine, 2015, 32(6): 31-54.
[3] Sidiropoulos N D, Davidson T N, Luo Z Q. Transmit beamforming for physical-layer multicasting[J]. IEEE transactions on signal processing, 2006, 54(6): 2239-2251.
[4] Nair S S, Chaluvadi R, Bhashyam S. Optimal rank-constrained transmission for MIMO under per-group power constraints[C]//2017 IEEE Wireless Communications and Networking Conference (WCNC). IEEE, 2017: 1-6.
[5] Yu H , Lau V K N . Rank-Constrained Schur-Convex Optimization With Multiple Trace/Log-Det Constraints[J]. IEEE Transactions on Signal Processing, 2011, 59(1):304-314.