集英社-富硒土壤對茶葉品質影響 調查報告

Troverld發表於2024-04-17

謹以此文,悼念我炸裂的計應數期中考試。下次不僅要帶一個腦子做題,還得帶一個腦子盯著它做題,不然第一個腦子容易跑偏剎不住車。得去黑市看一眼最近腦子市價如何,如果太貴還得賣點東西湊一湊。

\[\newcommand{\d}{\mathrm d} \newcommand{\i}{\mathbf i} \]

簡介:你說的對,但是「集英社」是「茶園」自主研發的一款全新開放問題探究專案。課題發生在一個被稱作「六教-A016」的演播教室,在這裡,被姚選中的人將被授予「指數級別作業」,導引「複分析」之力。你將扮演一位名為「學生」的神秘角色,在自由的「授課」中邂逅引數各異、能力獨特的「公式」們,用它們一起研究開放問題,找回失散的大腦——同時,逐步發掘「掛科」的真相。

Section 1.課堂內容總結

Week 1.

Probability Space \(P=(U,p)\) 是用來描述隨機事件的工具,其中 \(U\) 被稱作 universe\(p\)probability function

event\(U\) 的一個子集。

Union Bound Formula:令事件 \(T,T_1,\dots\),且 \(T\sube\bigcup T_i\),則 \(\Pr(T)\leq\sum\Pr(T_i)\);如果 \(T_i\) 構成 \(T\) 的一組劃分,則有 \(\Pr(T)=\sum\Pr(T_i)\)

Conditional Probability \(\Pr(S|T)=\dfrac{\Pr(S\cap T)}{\Pr(T)}\)。特別地,如果 \(\Pr(T)=0\) 那麼條件機率為零。

Chain Law of Conditional Probability \(\Pr(S_1\cap S_2\cap\dots)=\prod\Pr(S_i\mid S_1\cap S_2\cap\dots\cap S_{i-1})\)

Law of total probability:如果 \(T\sube\bigcup T_i\),則 \(\Pr(T)\leq\sum\Pr(T_i)\Pr(T|T_i)\)。如果 \(T_i\) 不交則取等號。

常用的處理 \(\prod(1+x)\),其中 \(x\) 接近 \(0\) 的方法是,放縮為 \(\prod e^x\)

Week 2.

Random Variable \(X\)\(U\to\R\) 的對映。event 可以被看作是 \(U\to\{0,1\}\) 的一種特殊機率。期望是機率與權值之積的和。

Law of Linear Expectation。機率具有線性性,就算不同事件間彼此並非獨立。

Distributive Law for Expectation:若 \(T_i\) 構成 \(U\) 的劃分,則 \(E(X)=\sum\Pr(W_i)E(X|W_i)\)

Markov's Inequality:對於定義在非負集合 \(U\) 上的隨機變數 \(X\)\(\Pr(X>cE(X))<\dfrac1c\)

Chebyshev's Inequality\(\Pr(|X-E(X)|>c\sigma(X))<\dfrac1{c^2}\)。或者,\(\Pr(|X-E(X)|>c)<\dfrac{V(X)}{c^2}\)

Chernoff Bound:對於獨立的擲硬幣實驗 \(X_1,\dots,X_n\),第 \(i\) 次以 \(b_i\) 的機率取 \(1\)\(1-b_i\)\(0\),則 \(\Pr(X\geq(1+\delta)\mu)\leq\left(\dfrac{e^\delta}{(1+\delta)^{1+\delta}}\right)^\mu\)\(\Pr(X\leq(1-\delta)\mu)\leq\left(\dfrac{e^{-\delta}}{(1-\delta)^{1-\delta}}\right)^\mu\)。同時有推論:\(\Pr(X\geq(1+\delta)\mu)\leq e^{-1/3\delta^2\mu}\)\(\Pr(X\leq(1-\delta)\mu)\leq e^{-1/2\delta^2\mu}\)

Chernoff Bound 僅適用於重複拋硬幣問題,但並非所有問題都能透過重複拋硬幣描述。在更廣泛的場合,我們有如下的:

Hoeffding's Inequality:對於 \(X_i\in(a,b)\),有 \(\Pr(|\sum X_i-E(X_i)|\geq t)\leq2\exp(\dfrac{-2t^2}{n(b-a)^2})\)。在其不同分佈時,也有 \(\Pr(|\sum X_i-E(X_i)|\geq t)\leq2\exp(\dfrac{-2t^2}{\sum(b_i-a_i)^2})\)。事實上,如果把內層的絕對值撤掉,那麼右側外部的 \(2\) 亦可撤掉。

Week 3.

要證明一個東西的級別,一個通用的想法是,用 Union Bound 證下界,用 Chebyshev's Inequality 證上界。但是 Chebyshev 需要算方差。

例如,Ramsay Number 列舉所有的 \(K\)-子集並計算其成團/獨立集機率並求和,當 \(n\) 充分小時求和得到的值小於 \(1\),因此必然存在所有子集均不合法的機率。同理,隨機圖最大團的下界也是用 Union Bound 證。隨機圖最大團貪心演算法的下界同理。

上界的話,Ramsay Number 是證了遞推關係 \(R(s,t)\leq R(s-1,t)+R(s,t-1)\),而隨機圖最大團則是 Chebyshev's Inequality,但是 Variance 很難證(也沒辦法)。隨機圖最大團貪心演算法也是。

Randomized BSA:\(i\) 要送到 \(v_i\)。演算法是隨機一組 \(\sigma(i)\),先送到 \(\sigma\) 再送到 \(v\)。每步以 \(1-o(1)\) 的機率在 \(6n\) 內達成。

Week 4.

  • Cauchy-Goursat 基本定理:若 \(f(z)\) 在簡單閉曲線 \(C\) 及其圍成區域內處處解析,那麼 \(f(z)\) 沿 \(C\) 積分為零,也即 \(\oint_Cf(z)\d z=0\)。【注意:要求是簡單、且自身及圍成的區域處處解析)

  • 直接推論:單連通域內處處解析函式沿任意簡單閉曲線積分為零。

  • 進一步推廣至多連通域,得到 複合閉路定理:令 \(C\) 是多聯通域 \(D\) 中簡單閉曲線,\(C_1,\dots,C_k\)\(C\) 內部兩兩不交、不互相包含的曲線集合,且有 \(C,C_1,\dots,C_k\) 所夾區域被完全包含於多連通域內(也即,\(C_1,\dots,C_k\) 從多連通域內“挖掉”了若干不屬於多連通域的部分),則對於在 \(D\) 中解析的 \(f\),那麼:

    • \(\oint_Cf(z)\d z=\sum\oint_{C_i}f(z)\d z\),其中所有曲線均取(自然)正向。
    • \(\oint_\Gamma f(z)\d z=0\),其中 \(\Gamma\) 指取正向的 \(C\) 和取負向的 \(C_1,\dots,C_k\)
  • 同時又有推論 閉路變形原理:解析函式沿閉曲線積分不因閉曲線的連續變形而改變值,只要閉曲線的變形不經過奇點。

  • \(\dfrac{f(z)}{z-z_0}\)\(z_0\) 可能不解析;但是可以透過不斷向 \(z_0\) 縮小,讓 \(f(z)\) 的值逐漸接近 \(f(z_0)\)\(\oint_C\dfrac{f(z)}{z-z_0}\d z\) 接近 \(\oint_C\dfrac{f(z_0)}{z-z_0}\d z\);後者因為 \(\oint_C\dfrac1{z-z_0}\d z\) 可以連續變形為套著 \(z_0\) 的圓,而這個圓上 \(\dfrac1{z-z_0}\) 的積分前面提到過是 \(2\pi\i\),因此這個值有接近 \(f(z_0)2\pi\i\) 的期望。

  • 事實上,有 Cauchy 積分公式:在區域 \(D\) 內處處解析的 \(f\),內部完全含於 \(D\)\(C\)\(C\) 內部任一點 \(z_0\),有 \(f(z_0)=\dfrac1{2\pi\i}\oint_C\dfrac{f(z)}{z-z_0}\d z\)。透過 \(\epsilon-\delta\) 語言可證得。

  • \(C\) 為套著 \(z_0\) 的圓周,得到 \(f(z_0)=\dfrac1{2\pi}\int_0^{2\pi}f(z_0+Re^{i\pi})\d\theta\),也即,解析函式在圓心處的值等於其在圓周上的平均。

  • 解析函式的導數仍為解析函式,事實上解析函式 \(\in\scr C^\infty\),且 \(f^{(n)}(z)=\dfrac{n!}{2\pi i}\oint_C\dfrac{f(\xi)}{(\xi-z)^{n+1}}\d\xi\)高階導數公式),其中 \(C\) 是任一環繞 \(z\) 的正向簡單閉曲線,其內部全含於 \(D\)。證明就靠嗯歸納。Cauchy 積分公式是高階導數公式 \(n=0\) 時的特例。

  • 雖然其是透過積分來表示導數,不過最常見的應用還是透過高階導數來算環路積分。

  • Cauchy 不等式:\(|f^{(n)}(z_0)|\leq\dfrac{n!M(R)}{R^n}\),其中 \(M(R)\) 是以 \(z_0\) 為圓心的 \(R\)-圓周上 \(|f(z)|\)\(\max\)

  • 解析函式的 Laurent 展開定理:設 \(f(z)\) 在圓環域 \(R_1<|z-z_0|<R_1\) 內解析,則在圓環域內 \(f\) 必可以唯一展成雙邊冪級數 \(f(z)=\sum c_n(z-z_0)^n\),其中 \(c_n=\dfrac1{2\pi\i}\oint_C\dfrac{f(\xi)}{(\xi-z_0)^{n+1}}\d\xi\),其中 \(C\) 是環繞 \(z_0\) 的任一正向簡單閉曲線。這個雙邊冪級數被稱作 Laurent 級數,正冪項部分被稱作 解析部分,負冪項部分被稱作 主要部分

  • \(z_0\) 是一個 極點 pole,如果其主要部分有有限項;其主要部分的最高(?)項次數如果是 \(-n\),則稱其是一個 \(n\) 階奇點,或者是 a pole of order n。其主要部分中負一次項係數被稱作 留數 residue

  • \(n\) 階零點,如果其解析,並且可以寫成 \((z-z_0)^m\varphi(z)\),且 \(\varphi(z_0)\neq0\)

  • \(f\)\(n\) 階極點是 \(\dfrac1f\)\(n\) 階零點的充要條件。

  • 留數定理:對於 \(m\) 階極點 \(z_0\)\(\text{Res}(f,z_0)=\dfrac1{(m-1)!}\lim\limits_{z\to z_0}\dfrac{\d^{m-1}}{\d z^{m-1}}((z-z_0)^mf(z))\)

  • 無窮遠處留數的定義是 \(\dfrac1{2\pi i}\int_{C^-}f(z)\d z\),其中 \(C^-\) 是繞原點負向,即為繞無窮遠正向。此時,得到結論:如果包含無窮遠極點在內僅有有限個極點,且極點都是孤立極點,那麼所有留數和為零。

  • \(\text{Res}(f,\infty)=-\text{Res}(f(z^{-1})z^{-2},0)\)。算內極點的留數可以轉為算外極點的留數。

矩陣樹定理。證明可以使用 Cauchy-Binet,也可以容斥,即欽定根後隨機選鄰邊為父親然後容斥環。

另有 \(\#SP=\dfrac1n\lambda_2\dots\lambda_n\),其中 \(\lambda_1=0\)。這是因為,\(\prod(\lambda-\lambda_i)=\det(\lambda I-L_G)'=(-1)^{n-1}\sum\det\left(L_G^{(i)}(\lambda)\right)\)。代入 \(\lambda=0\),得到 \((-1)^{n-1}\prod\lambda_i=(-1)^{n-1}n\#SP\).

Week 5.

FKT 演算法。

對於反對稱矩陣,定義 \(\text{Pf}=\sum\limits_\sigma\text{sgn}(\sigma)\prod A_{\sigma_{2i-1},\sigma_{2i}}\)

考慮任兩個 Pfaffian 中元素 \(M_1,M_2\),其中的邊拼起來拼成一組排列的 cycle 形式。因此 \(\det=\text{Pf}^2\)

Pfaffian 中元素如果被恰當定向,使得所有的完美匹配的 \(\text{sgn}\) 都同號,則直接對行列式開根即得 Pfaffian 的絕對值,也即完美匹配數目。使得每個面上順時針邊數目都是偶數即可。

演算法是隨機生成樹並定向,然後定向其它東西。

Pfaffian 除了被用於平面圖完美匹配計數,亦可判定任意圖是否存在完美匹配(用 Schwartz-Zippel 定理),乃至解決尚無確定性解法的恰出現 \(K\) 條紅邊的完美匹配計數(引入額外元 \(y\)

還是記一下 Schwartz-Zippel 定理吧。對於元數任意,但是次數不超過 \(d\) 的多項式,任意在有限集 \(S\) 中賦值並賦到根的機率是 \(d/|S|\)。證明關於元數歸納。

Week 6.

複雜度概念。

L:\(\text{polylog}(n)\) 空間 可解。

PSPACE:\(\text{poly}(n)\) 空間 可解。

EXP:\(2^{\text{poly}(n)}\) 時間 可解。

BPP:以一個恆機率出錯(即,原本有解被判無解)。不斷重複可以讓出錯機率趨於零。

\(L\sube P\sube NP\sube PSPACE\sube EXP\)

NP-Hard:所有 NP 都可以規約到的問題。

NP-Complete:同時是 NP-Hard 和 NP。

如果一個 NPC 問題可以規約到另一個 NP 問題,則該問題亦是 NPC 的。

Section 2.[Wasserman] 書上內容總結

Chapter 1.

兩個變數獨立有著 \(A\amalg B\) \amalg 的奇怪符號;不獨立則有著 \(A\operatorname{一圈奇怪的彈簧符號}B\) 的寫法。

Bayes 公式:對於 \(U\) 的劃分 \(T\)\(\Pr(T_i|B)=\dfrac{\Pr(B|T_i)\Pr(T_i)}{\sum\Pr(B|T_j)\Pr(T_j)}\)。其中,分母其實是 \(\Pr(B)\),分子其實是 \(\Pr(B\cap T_i)\)

Chapter 2.

對於隨機變數 \(X\),其大寫 \(F_X(x)=\Pr(X\leq x)\),被稱作 cumulative distribution function 或者 CDF。其是 \(\R\to[0,1]\) 的函式,不論離散的 \(X\) 還是連續的 \(X\) 都有如此定義。

一切非降、正則(在負無窮處趨於 \(0\),正無窮處趨於 \(1\))、右連續的函式都可以是某個隨機變數的 CDF

離散型隨機變數是僅能取到可數個取值的隨機變數。離散變數可以定義 probability functionprobability mass function \(f_X=\Pr(X=x)\)

連續性隨機變數是存在全積分為 \(1\) 的函式 \(f_X\) 且滿足 \(\Pr(a<X<b)=\int_a^bf_X(x)\d x\) 的隨機變數。\(f_X\) 被稱作 probability density function,且在所有 \(F_X\) 可微處均有 \(f_X(x)=F'_X(x)\)

inverse CDF 或者 quantile function \(F^{-1}(q)=\inf\{x:F(x)>q\}\)。如果 \(F\) 單增且連續那麼 \(F,F^{-1}\) 互為反函式。可以由此定義各種 first quantile, median, third quantile

兩個 \(F\) 相同的函式被稱作 equal in distribution,但並不意味著它們是同一個變數。

marginal mass function 是對二維的 probability mass function 投到一維的結果。同理有 marginal density function

兩個隨機變數獨立,如果對於一切 \(A,B\)\(\Pr(X\in A,Y\in B)=\Pr(X\in A)\Pr(Y\in B)\)

對於連續隨機變數,如果 \(f(x,y)=g(x)h(y)\)\(g,h\) 不一定是 PDF)那麼 \(X,Y\) 獨立。

條件 PMF \(f_{X|Y}(x|y)=\Pr(X=x|Y=y)\)。同理有條件 PDF \(f_{X|Y}(x|y)=\dfrac{f_{X,Y}(x,y)}{f_Y(y)}\)

稱若干隨機變數 IIDindependend and identically distributed),如果它們獨立並且服從於同一組分佈 \(F\),記作 \(x_1,\dots,x_n\sim F\)

如果對於隨機變數 \(X\),定義比如說 \(Y=r(X)\),如何計算 \(Y\) 的分佈?

求出 \(A_y=\{x|r(x)\leq y\}\),則 \(F_Y(y)=\int_{A_y}f_X(x)\d x\)

Chapter 3.

期望。expectation 也被叫做 mean 或者 first moment 一階矩。

期望的懶惰計算(The Rule of Lazy Statistician):若 \(Y=r(X)\),則 \(E(Y)=E(r(X))=\int r(x)\d F_X(x)=\int r(x)f_X(x)\d x\)

\(K\) 階矩 Kth moment\(E(X^K)\)\(K\) 階矩存在如果該期望對應積分收斂。高階矩存在則低階矩必然存在。

期望線性性。如果變數獨立則積的期望等於期望的積。

\(V(aX+b)=a^2V(X)\)。獨立的 \(X\) 有和的方差等於方差的和。

對於一組隨機變數 \(X_1,\dots,X_n\),定義樣本均值 sample mean \(\bar X_n=\dfrac1n\sum X_i\),樣本方差 sample variance \(S_n^2=\dfrac1{n-1}\sum(X_i-\bar X_i)^2\)

  • 為什麼是 \(n-1\)?因為 \(\bar X_n\) 提供了一個自由度。

協方差 covariance \(\text{Cov}(X,Y)=E((X-\mu_X)(Y-\mu_Y))\)。相關係數 correlation \(\rho_{X,Y}=\dfrac{\text{Cov}(X,Y)}{\sigma_X\sigma_Y}\)

\(-1\leq\rho\leq1\)。如果 \(Y=aX+b\)(前提是 \(a\neq0\)),那麼當 \(a>0\)\(\rho=1\)\(a<0\)\(\rho=-1\)。獨立變數的協方差與相關係數均為零,但是反之不亦然。

\[V(\sum a_iX_i)=\sum\limits_{i=1}^n\sum\limits_{j=1}^na_ia_j\text{Cov}(X_i,X_j) \]

隨機向量 \(\begin{bmatrix}X_1\\\vdots\\X_n\end{bmatrix}\) 的平均值向量為 \(\mu=\begin{bmatrix}\mu_1\\\vdots\\\mu_n\end{bmatrix}\)。方差-協方差矩陣(variance-covariance matrix\(\Sigma\) 被定義為 \(V(X)=\begin{bmatrix}V(X_1)&\text{Cov}(X_1,X_2)&\dots\\\text{Cov}(X_2,X_1)&V(X_2)&\dots\\\vdots&\vdots&\ddots\end{bmatrix}\)

條件期望 \(E(X|Y=y)\) 是關於 \(y\) 的函式

The Rule of Iterated Expectations\(E(E(Y|X))=E(Y),E(E(X|Y))=E(X)\)。事實上,\(E(E(r(X,Y)|X))=E(E(r(X,Y)|Y))=E(r(X,Y))\)

條件方差 \(V(X|Y=y)\) 亦是關於 \(y\) 的函式。\(V(X|Y=y)=\int(x-\mu(X|Y=y))^2f(x|y)\d x\)

\(V(Y)=EV(Y|X)+VE(Y|X)\)

矩量生成函式 Moment Generating Function, MGF,或稱為 Laplace 變換 Laplace Transform,滿足 \(\psi_X(t)=E(e^{tX})=\int e^{tx}\d F(x)=\int e^{tx}f(x)\d x\)。我們希望,MGF 在 \(0\) 的鄰域中有定義。這樣,便可得到 \(\psi'(0)=E(X)\)。事實上,\(\psi^{(k)}(0)=E(X^k)\)

當變數彼此獨立時,MGF 的積等於 的 MGF。

\(Y=aX+b\),則 \(\psi_Y(t)=e^{bt}\psi_X(at)\)

如果 \(\psi_X(t)=\psi_Y(t)\)\(0\) 的鄰域中相等,則 \(X,Y\) 有相同分佈。

特別地,PGF 的一些優秀性質(注意區別 PGF 與 PDF)(注意區分 PGF 與 MGF):

  • \(p(1)=1\)
  • \(p'(1)=E(X)\)
  • \(p''(1)+p'(1)-p'(1)^2=V(X)\)

Chapter 4.

另一種 Hoeffding's Inequality 的表述:

對於獨立隨機變數 \(Y_1,\dots,Y_n\),且每個變數的期望均為 \(0\),且滿足 \(a_i\leq Y\leq b_i\)。令一個 \(\epsilon>0\),則對於一切 \(t>0\),都有 \(\Pr(\sum Y_i\geq\epsilon)\leq e^{-t\epsilon}\prod\exp(t^2(b_i-a_i)^2/8)\)

Mill's Inequality:對於 \(Z\sim N(0,1)\),則 \(\Pr(|Z|>t)\leq\sqrt{\dfrac2\pi}\dfrac{e^{-t^2/2}}t\)

Cauchy-Schwarz Inequality:對於方差有限的變數 \(X,Y\)\(E|XY|\leq\sqrt{E(X^2)E(Y^2)}\)

Jensen's Inequality:對於凸的 \(g\)\(E(g(X))\geq g(E(X))\)

相關文章