02-凸函式

二十三歲的有德發表於2021-06-19

02-凸函式

1 基本性質和例子

[凸函式] 一個函式 \(f: R^n\rightarrow R\) 是凸的,如果定義域 \(dom\,f\) 是凸集,並且對於所有 \(x,y\in f, \theta\leq 1\) ,我們有 \(f(\theta x+(1-\theta)y)\leq \theta f(x)+(1-\theta)f(y).\)

幾何解釋:點 \((x,f(x))\)\((y,f(y))\) 之間的線段在 \(f\) 對應的影像上方。

img

  • 函式 \(f\)嚴格凸的,如果以上不等式在 \(x\ne y\) ,且 \(0<\theta <1\) 時也成立.
  • 函式 \(f\)的,當 \(-f\) 是凸的,嚴格凹,當 \(-f\) 是嚴格凸的。
  • 仿射函式既是凸的也是凹的,反過來,既凹又凸的函式是仿射的。
  • 一個函式是凸的當且僅當對任意 \(x\in dom\,f\) 和任意 \(v\) ,函式 \(g(t)=f(x+tv)\) 是凸的, \(\{t|x+tv\in dom\,f\}.\)

[擴充套件值] 將凸函式擴充套件到整個 \(R^n\) ,通常令它在定義域之外取 \(\infty\) 。如果 \(f\) 是凸函式那麼它的擴充為 \(\widetilde{f} : R^n\rightarrow R \cup \{\infty\}\) ,

\(\widetilde{f}(x)=\left \{\begin{aligned} f(x)\;\; x\in domf\\ \infty\;\; x\not\in domf \end{aligned}\right.\)

[一階條件] 令函式 \(f\) 是可微的(也就是它的梯度 \(\nabla f\) 在開集 \(domf\) 的每個點上都存在)。那麼 \(f\) 是凸的,當且僅當 \(domf\) 是凸的,並且對所有的 \(x,y\in domf\) 有:

\(f(y)\geq f(x)+\nabla f(x)^T(y-x).\)

在每個點上,函式影像都高於在該點的切線。

img

解釋:\(y\) 的仿射函式 \(f(x)+\nabla f(x)^T(y-x)\)\(f\) 在靠近 \(x\) 處的一階泰勒近似。上述不等式表達了這個一階泰勒近似是函式的全域性下限(global underestimator),反過來,如果函式的一階泰勒近似總是函式的全域性下限,那麼這個函式是凸的。

  • 如果 \(\nabla f(x)=0\) ,那麼對於所有 \(y\in domf\) ,有 \(f(y)\geq f(x)\) , 也就是在 \(x\)\(f\) 取到全域性最小值\(x\) is a global minimizer of \(f\) )。
  • \(f\)嚴格凸的,當且僅當 \(domf\) 是凸的,且對於所有 \(x,y\in domf, x\ne y\)\(f(y)>f(x)+\nabla f(x)^T(y-x).\)
  • \(f\)的,當且僅當 \(domf\) 是凸的,並且 \(f(y)\leq f(x)+\nabla f(x)^T(y-x),\)\(\forall x,y\in domf.\)

[二階條件] 設函式 \(f\) 是二階可微的,也就是它在開集 \(domf\) 的每個點上都存在二階導數 \(\nabla^2 f\) 。那麼 \(f\) 是凸的,當且僅當它的二階導數是半正定的:

\(\forall x\in domf\) , \(\nabla^2f(x)\succeq 0\) .

幾何解釋:函式影像在每個定義域的每個點上都有正的曲率(curvature)。

  • 函式 \(f\)的,當且僅當 \(domf\) 是凸的,並且 \(\nabla^2f(x)\preceq 0\) , \(\forall x\in domf\)
  • 如果 \(\forall x\in domf\) , \(\nabla^2f(x)\succ 0\) ,那麼 \(f\)嚴格凸的。反過來不成立,例如 \(f(x)=x^4\) 是嚴格凸的,但是在 \(x=0\) 處二階導數為 \(0\) .

[例]

\(R\) 上:

  • \(e^{ax} , \forall a\in R\) , 在 \(R\) 上凸。
  • \(x^a,\)\(a\geq 1\)\(a\leq 0\) ,在 \(R_{++}\) 上凸,當 \(0\leq a\leq 1\) 時凹。
  • | \(x|^p\) , \(p\geq 1\) ,在R上凸。
  • \(log\;x\) ,在 \(R_{++}\) 上凸 。
  • 負熵 \(x log \; x\) ,在 \(R_+\)\(R_{++}\) 上凸。

\(R^n\) 上:

  • 範數,凸
  • 最大值函式,凸
  • Quadratic-over-linear 函式: \(f(x,y)=x^2/y\) , \(domf=R\times R_{++}=\{(x,y)\in R^n| y>0\}\) ,凸。
  • \(f(x)=log(e^{x_1}+...+e^{x_n})\) ,凸
  • 幾何平均 \(f(x)=(\prod^n_{i=1}x_i)^{1/n}\) ,在 \(R^n_{++}\) 上凹。
  • \(f(X)=log\; detX\) ,在 \(S^n_{++}\) 上凹。

[下水平集 sublevel set] 函式 \(f:R^n\rightarrow R\) 的一個 \(\alpha\) -下水平集是

\(C_{\alpha}=\{x\in domf | f(x)\leq \alpha\}\) .

  • 凸函式的下水平集是凸集,對於所有的 \(\alpha\) 。反過來不對,例如 \(f(x)=-e^x\)\(R\) 上不是凸的,但是它的所有下水平集都是凸集。
  • 凹函式的下水平集是凸集。

[上境圖 epigraph] 一個函式 \(f:R^n\rightarrow R\) 的影像是 \(\{(x,f(x))|x\in dom f\}\) . 它是 \(R^{n+1}\) 的子集。定義函式 \(f\)

上境圖: \(epi\; f = \{(x,t)| x\in dom f , f(x)\leq t\}\) .

下境圖\(hypo\;f = \{(x,t)| t\leq f(x)\}\) .

  • 函式是的當且僅當它的上境圖是一個凸集
  • 函式是的當且僅當它的下境圖是一個凸集

img

[Jensen不等式] 基本不等式 \(f(\theta x+(1-\theta)y)\leq \theta f(x)+(1-\theta)f(y)\) 有時被叫做Jensen不等式。

  • 它可以擴充到多個點的凸組合:

如果 \(f\) 是凸的, \(x_1,...,x_k\in domf, \theta_1,...,\theta_k \geq 0\) , \(\theta_1+...+\theta_k=1\) 那麼

\(f(\theta_1x_1+...+\theta_kx_k)\leq \theta_1 f(x_1)+...+\theta_k f(x_k)\) .

  • 還可以擴充到無限和,積分,期望:

積分:如果 \(p(x)\geq 0\)\(S\subseteq domf\) 上, \(\int_{S} p(x) dx =1\) ,那麼 \(f(\int_{S} p(x) dx)\leq \int_S f(x) p(x) dx\) .

期望:如果 \(x\) 是隨機變數 \(x\in dom f\) ,且 \(f\) 是凸函式,那麼有 \(f(Ex)\leq E f(x)\) .


2 保留凸性的運算

[非負加權和] 如果 \(f_1,...,f_m\) 是凸函式,他們的集合是一個凸錐——凸函式的非負加權和 \(f=w_1f_1+...+w_mf_m, (w_1,...,w_m\geq 0)\) 是凸的。

  • 還可以擴充到積分:如果 \(f(x,y)\) 對於x是凸的,對於每個 \(y\in A\) ,且w(y)\geq 0, \(\forall y\in A\) ,那麼函式 \(g(x)=\int_A w(y)f(x,y)dy\) 對於 \(x\) 是凸的。

[與仿射函式的複合]\(f:R^n\rightarrow R\) , \(A\in R^{n\times m}\) , \(b\in R\) 。定義 \(g:R^m\rightarrow R\)

\(g(x)=f(Ax+b)\) , \(domg=\{a| Ax+b\in domf\}\) .

那麼如果 \(f\) 是凸函式, \(g\) 也是凸函式。

[逐點最大 pointwise maximum] 如果 \(f_1,f_2\) 是凸函式,那麼他們的逐點最大 \(f\) ,定義為

\(f(x)=max\{f_1(x),f_2(x)\}\) , 定義域 \(domf=domf_1\cap domf_2\)

也是凸集。可以擴充到多個凸函式的逐點最大。

[逐點上確界 pointwise supremum] 如果對於每個 \(y\in A\) , \(f(x,y)\) 關於 \(x\) 是凸的,那麼函式

\(g(x)=\underset {y\in A}{sup} \,f(x,y)\)

關於 \(x\) 是凸的。 \(g\) 的定義域是

\(dom g=\{x|(x,y)\in dom f, \forall y\in A, \underset{y\in A}{sup}f(x,y)<\infty\}\) .

  • 類似地,一組凹函式的逐點下確界是凹函式。
  • \(epi\, g =\bigcap _ {y\in A}epi \, f(\cdot,y)\) .

[最小化] 如果 \(f\) 關於 \((x,y)\) 是凸函式,並且 \(C\) 是非空凸集,那麼函式

\(g(x)=\underset{g\in C}{inf}\, f(x,y)\)

是關於 \(x\) 的凸函式,對於所有的 \(x\)\(g(x)>-\infty\) 的定義域是 \(domf\)\(x\) 軸的投影:

\(dom g=\{x| (x,y)\in domf, for some y\in C\}\) .

[函式的透視] 函式 \(f: R^n\rightarrow R\)\(f\) 的透視函式為

\(g:R^{n+1}\rightarrow R\)\(g(x,t)=tf(x/t)\)

\(domg=\{(x,t)| x/t\in dom f, t>0\}\)

透視運算儲存凸性:如果函式 \(f\) 是凸的,那麼它的透視函式 \(g\) 也是凸的;如果 \(f\) 是凹的,那麼 \(g\) 也是凹的。


3 共軛函式

[函式的共軛 conjugate]\(f:R^n\rightarrow R\) 函式 \(f^* : R^n\rightarrow R\) 定義為

\(f^*(y)=\underset{x\in domf}{sup} (y^Tx-f(x))\) , 叫做函式 \(f\)共軛

共軛函式的定義域 由使得上述上確界有限的 \(y, y\in R^n\) 組成。也就是說在 \(domf\) 上差 \(y^Tx-f(x)\) 是有界的。如圖:

img

  • 共軛函式 \(f^*\) 是凸的,因為它是關於 \(y\) 的凸函式的逐點上確界,這一點為真不論 \(f\) 是否是凸的。

[Fenchel不等式] 由共軛函式的定義,我們有

\(f(x)+f^*(y)\geq x^T y\) , \(\forall x,y\) ,叫做Fenchel不等式。

例如對於 \(f(x)=(1/2)x^TQx\) , \(Q\in S^n_{++}\)\(x^Ty\leq (1/2)x^TQx+(1/2)y^TQ^{-1}y.\)

[共軛的共軛] 如果函式 \(f\) 是凸且閉的,那麼 \(f^{**}=f\) .

[可微函式] 可微函式 \(f\) 的共軛,也叫做 \(f\)Legendre變換。令 \(f\) 是凸且可微的, \(domf=R^n\) ,任意使 \(y^Tx-f(x)\) 取最大值的 \(x^*\) 都滿足 \(y=\nabla f(x^*)\)

反過來如果 \(x^{*}\) 滿足 \(y=\nabla f(x^*)\) ,那麼 \(x^{*}\) 使得 \(y^Tx-f(x)\) 最大化。因此如果 \(y=\nabla f(x^*)\) 我們有:

\(f^*(y)=x^{*T} \nabla f(x^*)-f(x^*).\)

這允許我們能為任何 \(y\) 通過得到 \(f^*(y)\) 來解出梯度方程 \(y=\nabla f(z)\)

  • 另一種表示,令 \(z\in R^n\) 是任意的,定義 \(y=\nabla f(z)\) , 那麼有 \(f^*(y)=z^T\nabla f(z)-f(z)\) .

[伸縮變換,與仿射變換的複合] 對於 \(a>0,b\in R\) ,函式 \(g(x)=af(x)+b\) 的共軛是

\(g^*(y)=af^*(A^{-1}y)-b^TA^{-T}y\) . 定義域 \(domg^*=A^Tdomf^*.\)

[獨立函式的和] 如果 \(f(u,v)=f_1(u)+f_2(v)\)\(f_1,f_2\) 都是凸函式,且有共軛 \(f_1^*,f_2^*,\) 那麼 \(f^*(w,z)=f_1^*(w)+f_2^*(z).\)

也就是,獨立凸函式的和的共軛,是函式的共軛的和。


4 擬凸函式

[擬凸 Quasiconvex] 函式 \(f: R^n\rightarrow R\) 是擬凸的,如果它的定義域和所有下水平集 \(S_{\alpha}=\{x\in domf | f(x)\leq \alpha\}\) , \(\alpha \in R\) 都是凸的。

  • 一個函式是擬凹(quasiconcave)的,如果 \(-f\) 是擬凸的,也就是每個上水平集 \(\{x| f(x)\geq \alpha\}\) 是凸的。
  • 如果一個函式既擬凸又擬凹,那麼叫做擬線性(quasilinear)。如果一個函式是擬線性的那麼它的定義域和每個下水平集 \(\{x| f(x)=\alpha\}\) 都是凸的.

img

[基本性質---不等式] 凸和擬凸有很多對應的性質,例如Jesen不等式的擬凸版本:一個函式 \(f\) 是擬凸的,當且僅當 \(domf\) 是凸的,且對任意 \(x\)\(0\leq \theta\leq 1\)

\(f(\theta x+(1-\theta)y)\leq max\{f(x),f(y)\}.\)

也就是定義域某一段上的函式值,不超過這段兩端的函式值的最大值,如圖:

img

[ \(R\) 上的擬凸函式] 考慮連續函式 \(f:R\in R\) 是擬凸的,當且僅當滿足以下至少一個條件:

  • \(f\) 是非減的
  • \(f\) 是非增的
  • 存在一個點 \(c\in domf\) 使得對於 \(t\leq c (t\in domf)\)\(f\) 是非增的,且當 \(t\geq c (t\in domf)\)\(f\) 是非減的。

\(c\) 是一個全域性最小點:

img

[可微擬凸函式---一階條件]\(f: R^n\rightarrow R\) 是可微的,那麼 \(f\) 是擬凸的當且僅當 \(domf\) 是凸的,並且 \(\forall x,y\in domf\)

\(f(y)\leq f(x) \Rightarrow \nabla f(x)^T(y-x)\leq 0.\)

img

[可微擬凸函式---二階條件]\(f\) 是二次可微的,如果 \(f\) 是擬凸的,那麼 \(\forall x\in domf, y\in R^n\)

\(y^T\nabla f(x)=0\Rightarrow y^T\nabla^2 f(x)y\geq 0.\)

  • 對於 \(R\) 上的擬凸函式 \(f\) ,條件簡化為 \(f'(x)=0\Rightarrow f''(x)\geq 0.\) 也就是在斜率為 \(0\) 的坡的任意點上,二階導數都是非負的。

[保留擬凸性的運算]

  • 非負加權最大值: $f=max{w_1f_1,...,w_mf_m} ,w_i\geq 0, $$f_i$ 是擬凸函式。這個性質可以推廣到逐點上確界。
  • 複合:如果 \(g:R^n\rightarrow R\) 是擬凸函式, \(h:R\rightarrow R\) 是非減的,那麼 \(f=h\circ g\) 是擬凸的。擬凸函式和仿射函式或線性-分數函式的複合也是一個擬凸函式。
  • 最小化: \(f(x,y)\) 是擬凸函式, \(C\) 是一個凸集,那麼函式 \(g(x)=\underset{y\in C }{inf}f(x,y)\) 是擬凸的。

[用一族凸函式表示] 用凸函式的不等式來表示擬凸函式 \(f\) 的下水平集。找一族凸函式 \(\phi_t:R^n\rightarrow R , t\in R\) 滿足 \(f(x)\leq t\Leftrightarrow \phi_t(x)\leq 0.\)

也就是,擬凸函式 \(f\)\(t\)-下水平集是凸函式 \(\phi_t\)\(0\)-下水平集。


5 對數凹/對數凸函式

[對數凹/凸 log-concave/log-convex] 函式 \(f:R^n\rightarrow R\)對數凹的,如果 \(f(x)>0, \forall x\in domf\) 是凹的。

\(f\)對數凸的當且僅當 \(1/f\) 是對數凹的。

允許 \(f\)\(0\)\(log\,f(x)=-\infty\) ,此時 \(f\) 是對數凹的,如果擴充值函式 \(log\,f\) 是凹的。

[用不等式表示] 函式 \(f:R^n\rightarrow R\) 帶有凸定義域,並且 \(f(x)>0,\forall x\in domf\) 有:

\(f(\theta x+(1-\theta)y)\geq f(x)^{\theta}f(y)^{1-\theta}.\)

  • 特別地,對數凹函式在兩點的中點上的值,大於等於 兩點上函式值的幾何平均數

[二次可微的對數凹/對數凸函式]\(f\) 是二次可微的, \(domf\) 是凸集,那麼有

\(\nabla^2 log f(x)=\frac{1}{f(x)}\nabla^2 f(x)-\frac{1}{f(x)^2}\nabla f(x)\nabla f(x)^T.\)

  • \(f\)對數凸的,當且僅當 \(\forall x\in domf\) 有:

\(f(x)\nabla^2\succeq \nabla f(x)\nabla f(x)^T.\)

  • \(f\)對數凹的,當且僅當 \(\forall x\in domf\) 有:

\(f(x)\nabla^2\preceq \nabla f(x)\nabla f(x)^T.\)

[加法,乘法,積分] 對數凸性和對數凹性對於加法和正標量乘法封閉。

  • 如果 \(f(x,y)\) 對於所有的 \(y\in C\) 關於 \(x\) 對數凸, 那麼 \(g(x)=\int_C f(x,y) dy\) 是對數凸的

[對數凹函式的積分] 在某些特殊情況中積分保留對數凹性。如果 \(f:R^n\times R^m\rightarrow R\) 是對數凹的,那麼 \(g(x)= \int f(x,y)dy\) 是關於 \(x\) 的對數凹函式。

  • 這說明對數凹性在卷積下封閉,也就是如果 \(f,g\)\(R^n\) 上的對數凹函式,那麼卷積 \((f*g)(x)=\int f(x-y)g(y)dy\) 也是對數凹函式。

6 關於廣義不等關係的凸性

單調性和凸性的推廣。

[單調性]\(K\subseteq R^n\) 是一個正常錐(proper cone) ,有對應的廣義不等關係 \(\preceq_K\)

  • 一個函式 \(f:R^n\rightarrow R\) 叫做\(K\) -非減的,如果

\(x\preceq_K y\Rightarrow f(x)\leq f(y).\)

  • \(f\)\(K\) -增的,如果

\(x\prec_K y, x\ne y\Rightarrow f(x)<f(y).\)

類似可以定義 \(K\) -非增函式,和 \(K\) -減函式。

[單調性的梯度條件] 一個定義域是凸集的可微函式 \(f\) ,是 \(K\) -非增的,當且僅當對於所有的 \(x\in domf\)\(\nabla f(x)\succeq_{K^*} 0\) .

更嚴格的情況,如果 \(\nabla f(x)\succ_{K^*} 0\) 對於所有 \(x\in domf\) 成立,那麼說 \(f\)\(K\) -增的。

[凸性]\(K\subseteq R^m\) 是一個正常錐,有對應的廣義不等關係 \(\preceq_K\)

  • 函式 f: \(R^n\rightarrow R^m\)\(K\) -的,當且僅當對於所有 \(x,y, 0\leq \theta \leq 1\)

\(f(\theta x+(1-\theta) y)\preceq_K \theta f(x)+(1-\theta)f(y).\)

  • 函式 \(f\)嚴格 \(K\) -凸的,如果對於所有 \(x\ne y, 0< \theta< 1\)

\(f(\theta x+(1-\theta) y)\prec_K \theta f(x)+(1-\theta)f(y).\)

[ \(K\) -凸的對偶刻畫] 一個函式 \(f\)\(K\) -凸的當且僅當對於每個 \(w\succeq_{K^*} 0\) ,實值函式 \(w^Tf\) 是凸的。 \(f\) 是嚴格 \(K\) -凸的當且僅當對於每個非零 \(w\succeq_{K^*} 0\) 函式 \(w^Tf\) 是嚴格凸的。

[可微 \(K\) -凸函式] 一個可微函式 \(f\)\(K\) -凸的當且僅當它的定義域是凸集,並且對於所有的 \(x,y\in domf\)

\(f(y)\succeq_K f(x)+Df(x)(y-x).\)

此處 \(Df(x)\in R^{m\times n}\) 是函式 \(f\) 關於 \(x\) 的導數或 Jacobian 矩陣。

函式 \(f\) 是嚴格 \(K\) -凸的,當且僅當對於所有 \(x,y\in domf ,x\ne y\)

\(f(y)\succ_K f(x)+Df(x)(y-x).\)

[複合定理 composition theorem] 凸函式的非減凸函式是凸的。如果 \(g:R^n\rightarrow R^p\)\(K\) -凸的, \(h: R^p\rightarrow R\) 是凸的,且 \(h\) 的值擴充 \(\widetilde{h}\)\(K\) -非減的,那麼 \(h\circ g\) 是凸的。

參考文獻:Stephen Boyd, Lieven Vandenberghe: Convex Optimization

參考資料:https://www.zhihu.com/column/c_1174389256402771968

相關文章