# Principle component analysis - 0

## 1. 一維資料的統計學

$$\tag{1} A = \begin{bmatrix} x_1 & \cdots & x_n \end{bmatrix}\in M_{1\times n}.$$

$$\tag{2} \mu = \frac{1}{n}(x_1+\cdots+x_n) = \frac{1}{n}\begin{bmatrix} 1 & \cdots & 1 \end{bmatrix}\begin{bmatrix} x_1\\ \vdots\\ x_n \end{bmatrix} = \frac{1}{n}\mathbb{1}^TA^T,$$

$$\tag{3} \text{Var}(A) = \sigma^2 = \frac{1}{n}\sum^n_{k=1} (x_i - \mu)^2,$$

$$\tag{4} H = I - \frac{1}{n}\mathbb{1}\mathbb{1}^T.$$

$$\tag{5} HA^T = (I - \frac{1}{n}\mathbb{1}\mathbb{1}^T)A^T = A^T - \mu\mathbb{1} = \begin{bmatrix} x_1 -\mu\\ \vdots\\ x_n -\mu \end{bmatrix} = Y^T,$$

$$\tag{6} \sigma^2 = \frac{1}{n}YY^T.$$

## 2. 二維資料的統計學

$$\tag{7} A = \begin{bmatrix} x_1 & \cdots & x_n\\ y_1 & \cdots & y_n \end{bmatrix}\in M_{2\times n}.$$

$$\tag{8} Y^T = \begin{bmatrix} x_1 -\mu_x & y_1 -\mu_y\\ \vdots & \vdots\\ x_n -\mu_x & y_n -\mu_y \end{bmatrix}, \quad \mu_x = \frac{1}{n}\sum^n_{k=1} x_k, \quad \mu_y = \frac{1}{n}\sum^n_{k=1} y_k.$$

$$\tag{9} \text{cov}(x, y) = \frac{1}{n}\sum^n_{k=1}(x_k - \mu_x)(y_k-\mu_y).$$

$$\tag{10} \frac{1}{n}YY^T = \begin{bmatrix} \text{cov}(x,x) & \text{cov}(x,y)\\ \text{cov}(x,y) & \text{cov}(y,y) \end{bmatrix},$$

Remark: 不過要真正算相關程度會更近一步的去計算相關係數 (correlation coefficients), 這邊就不再深入探討.

## 3. PCA: maximize variance

$$\tag{11} \sigma^2 =\frac{1}{n}(v^TY)(v^TY)^T =\frac{1}{n}v^TYY^Tv.$$

$$\tag{12} \hat{v} = \arg\max_{v\in\mathbb{R}^2, \|v\|=1} \left(v^TYY^Tv\right).$$

## 4. PCA: minimize square distance

\tag{13} \begin{align} \sum^n_{k=1} d_k^2 &= \sum^n_{k=1}\|Y_k - vv^TY_k\|^2 \\ &= \sum^n_{k=1}<Y_k-vv^TY_k, Y_k-vv^TY_k> \\ &= \sum^n_{k=1}Y_k^TY_k -Y_k^Tvv^TY_k \\ &= \sum^n_{k=1}Y_k^TY_k -v^TY_kY_k^Tv \\ &= \sum^n_{k=1}(Y_k^TY_k) -v^TYY^Tv, \end{align}

$$\tag{14} \hat{v}=\arg\min_{v\in\mathbb{R}^2, \|v\|=1} \left(\sum^n_{k=1}(Y_k^TY_k) -v^TYY^Tv\right) = \arg\max_{v\in\mathbb{R}^2, \|v\|=1} \left(v^TYY^Tv\right).$$

## 5. Conclusion

1. PCA 想做的事就是找到一個仿射子空間 (affine subspace), 使得
• 投影下去之後的資料有最大的變異數
• 投影前後的資料距離平方合最小.

而這兩件事情是等價的.

2. PCA 也是一種資料降維的工具, 而將資料投影到一維所出來的新資料就是 $v^TY$.
3. 以上雖然是以二維資料為例, 不過若有 $m$ 維資料整個推導是一樣的.
4. 以上是以投影到一維為例, 若投影到更高維度就是依序找第二, 三, 等等的 singular vectors. 不過推導會利用到矩陣 trace 的一些性質, 一些細節這裡就先跳過.
5. PCA 要找的是個仿射子空間, $V = \mu + \text{span}\{v\}$, 這裏我們都直接說 $\mu$ 就是資料的平均. 不過其實這是可以算出來的. 假設我們想要找一個點 $\mu$ 使得所有資料到這個點的距離和為最小, 也就是 $$\tag{15} \mu = \arg\min \sum^n_{k=1}(x_k - \mu)^2.$$ 我們先定義 $f(\mu) = \sum^n_{k=1}(x_k - \mu)^2$. 這是個單變數函數, 而且其實就是個 $\mu$ 的二次多項式, 首項係數等於 $1$, 有一個最小值. 接著微分求極值得到 $$\tag{16} \frac{d}{d\mu} f = \sum^n_{k=1}(-2)(x_k - \mu) = (-2)\left[\sum^n_{k=1}x_k - n\mu\right]$$ 因此極值發生在 $\frac{d}{d\mu} f=0$, 也就是 $$\tag{17} \mu = \frac{1}{n}\sum^n_{k=1}x_k.$$ 所以到所有資料點距離和最小的就是平均數.
##### Te-Sheng Lin (林得勝)
###### Associate Professor

The focus of my research is concerned with the development of analytical and computational tools, and further to communicate with scientists from other disciplines to solve engineering problems in practice.