Least square method 1

最小平方法 1

給定一個矩陣 $A$ 以及一個向量 $b$, 我們想要找到一個向量 $x$ 使得 $\|Ax - b\|^2$ 最小.

$$ A\in M_{m\times n}, \quad b \in M_{m\times 1}, \quad x\in M_{m\times 1}. $$

首先我們定義 $\hat{x}$ 為找到的那個解, 也就是說, 我們要解以下這個問題

$$ \newcommand{\argmin}{\arg\min} \tag{1} \hat{x} = \argmin_{x\in\mathbb{R}^n}\|Ax - b\|^2. $$

1. Notations

  • $C(A)$: column space of $A$. $$ C(A) = \{Ax | x\in\mathbb{R}^n\}\subseteq\mathbb{R}^m. $$
  • $N(A)$: null space of $A$. $$ N(A) = \{x\in\mathbb{R}^n | Ax = 0\}\subseteq\mathbb{R}^n. $$
  • Reduced QR for $A$. $$ A = QR, \quad Q^TQ = I, $$ 但是 $Q$ 不是個方陣, $N(R^T)=\{0\}$.

2. 最小平方解與投影子空間

要找到最小平方解首先我們做個重要的觀察.

事實上, 以下三件事是等價敘述:

給定 $A$ 與 $b$

  • 找到一個向量 $\hat{x}\in\mathbb{R}^n$, 使得 $\|A\hat{x}-b\|^2$ 最小.
  • 找到一個向量 $\hat{b}\in C(A)\subseteq\mathbb{R}^m$, 使得 $\|\hat{b}-b\|^2$ 最小.
  • 將 $b$ 投影到 $C(A)$.

因為 $A\hat{x}$ 可以視為 $A$ 的 columns 的線性組合. 而任何在 column space $C(A)$ 裡的向量也都可以被寫成 $Ax$.

所以若我們知道怎樣解其中一個, 另外兩個問題就同時解出來了. 我們先證明以下這個 lemma.

Lemma

任意給定一個向量 $b\in\mathbb{R}^m$, 如果我們能夠找到一個向量 $\hat{b}\in\mathbb{R}^m$ 滿足 $(\hat{b}-b)\perp C(A)$, 那這個向量就會是 $b$ 在 $C(A)$ 的投影向量, $$ \tag{2} \hat{b} = \arg\min_{\hat{b}\in\mathbb{R}^m}\|\hat{b}-b\|^2. $$

pf:

Let $\hat{b}\in C(A)\subseteq\mathbb{R}^m$ such that $(\hat{b}-b)\perp C(A)$.

Given $p\in C(A)$, we define $e = p - \hat{b}$ and we have $e\in C(A)$.

$$ \tag{3} \begin{align} \|p - b\|^2 &= <p-b, p-b> \\
&= <\hat{b} + e - b, \hat{b} + e - b>\\
&= \|\hat{b} - b\|^2 + 2<\hat{b} - b, e> + \|e\|^2\\
&= \|\hat{b} - b\|^2 + \|e\|^2, \end{align} $$

where we have used the fact that $(\hat{b}-b)\perp C(A)$ and $e\in C(A)$, so that $<\hat{b} - b, e>=0$.

Therefore, for any $p\in C(A)$, $\|p - b\|^2 \ge \|\hat{b} - b\|^2$, and the minimal of $\|p - b\|^2$ occurs when $\|e\|^2=0$, that is when $p=\hat{b}$.

由這 lemma 我們知道 $\hat{b}$ 可以從 $(\hat{b}-b)\perp C(A)$ 這個條件下手, 也就是要找一個 $\hat{b}$ 滿足

$$ \tag{4} A^T(\hat{b}-b)=0. $$

那因為 $\hat{b}\in C(A)$, 一定存在某個 $\hat{x}\in\mathbb{R}^n$ 使得 $A\hat{x}=\hat{b}$. 因此 (4) 就變成

$$ \tag{5} A^T(A\hat{x}-b)=0. $$

展開就知道 $\hat{x}$ 要滿足

$$ \tag{6} A^TA\hat{x}=A^Tb. $$

因此, 我們剛剛說的事其解就是:

  • 找到一個向量 $\hat{x}\subseteq\mathbb{R}^n$, 使得 $\|A\hat{x}-b\|^2$ 最小.
    • $\hat{x}$ 滿足 $A^TA\hat{x}=A^Tb$.
  • 找到一個向量 $\hat{b}\in C(A)\subseteq\mathbb{R}^m$, 使得 $\|\hat{b}-b\|^2$ 最小.
    • $\hat{b}$ 滿足 $(\hat{b}-b)\perp C(A)$, 或是 $A^T(\hat{b}-b)=0$.

Remark:

  1. 以上推導都是充分條件, 就是如果我們解出 (4) 或 (6), 那他們就一定是 (1) 的解.
  2. 以上推導跟 $A$ 的 column 有沒有 linearly independent 無關.

3. Independent columns

如果 $A$ 的 column 是 linearly independent, 那 $A^TA$ 就可逆, 然後我們就可以把 $\hat{x}$ 顯式的寫下來, 就得到 $$ \tag{7} \hat{x} = (A^TA)^{-1}A^Tb. $$ 在這情況下, $b$ 在 $C(A)$ 的投影也可以寫下來, 就是 $$ \tag{8} \hat{b} = A(A^TA)^{-1}A^Tb. $$ 或是我們可以更近一步定義投影到 $C(A)$ 的投影矩陣, 就是 $$ \tag{9} P = A(A^TA)^{-1}A^T. $$

4. Dependent columns

$A^TA$ 不可逆

Case 1

假設 $m<n$ 並且 $\text{rank}(A)=n$.

在這情況下, $A$ 的 columns 不是 linearly independent, $A^TA$ 不可逆, 並且 $N(A)\ne{0}$. 所以若有一個最小平方解, 那就還會有無窮多個. 不過我們至少先找到一個再說.

因為 $A$ 的 rows 會線性獨立, 因此我們對 $A^T$ 做 (reduced) QR 分解得到

$$ \tag{10} A^T = QR, $$ where $Q^TQ= I$, $Q\in M_{n\times m}$ and $R\in M_{m\times m}$. 並且我們知道 $R$ 是可逆矩陣.

接著我們知道最小平方解必須滿足 (6), 也就是

$$ \tag{11} QRR^TQ^T \hat{x} = QRb. $$

兩邊同乘 $(R^T)^{-1}R^{-1}Q^T$ 我們得到

$$ \tag{12} Q^T \hat{x} = (R^T)^{-1}b. $$

最後, 如果我們選擇

$$ \tag{13} \hat{x} = Q(R^T)^{-1}b, $$

那可以很容易驗證 (12) 是滿足的. 也就是說 (13) 會是這個問題的一個解.

Case 2

假設 $\text{rank}(A)=r$, 並且 $r<m$, $r<n$.

我們對 $A$ 做 (reduced) QR 分解得到

$$ \tag{14} A = QR, $$ where $Q^TQ= I$, $Q\in M_{m\times r}$ and $R\in M_{r\times n}$.

接著我們知道最小平方解必須滿足 (6), 也就是

$$ \tag{15} R^TR \hat{x} = R^TQ^Tb. $$

不過要注意的是這裡 $R^TR\in M_{n\times n}$ 不是一個可逆矩陣, 所以操作上無法兩邊同乘其反矩陣. 但是好消息是 $R^T$ 的 columns 是線性獨立的, 所以我們會有

$$ \tag{16} R \hat{x} = Q^Tb. $$

接著我們試著在 row space 裡找解. 假設 $\hat{x} = R^T \hat{y}$, $\hat{y}\in\mathbb{R}^r$, 那 (16) 可以改寫為

$$ \tag{17} RR^T \hat{y} = Q^Tb. $$

這樣, 由於 $RR^T\in M_{r\times r}$ 並且可逆, 我們就有 $\hat{y} = (RR^T)^{-1}Q^Tb$. 最後

$$ \tag{18} \hat{x} = R^T(RR^T)^{-1}Q^Tb. $$

一樣可以很容易驗證 (16) 是滿足的. 也就是說 (18) 會是這個問題的一個解.

Remark: QR 的這整套做法也適用於 $A$ 的 columns 線性獨立的情形. 而且在這情形之下的 $R$ 矩陣會是個可逆方陣, 因此有 $(RR^T)^{-1} = (R^T)^{-1}R^{-1}$. 代入之後得到

$$ \tag{19} \hat{x} = R^{-1}Q^Tb. $$

5. Conclusion

我們考慮以下最小平方法問題

$$ \min_{x\in\mathbb{R}^n}|Ax - b|^2. $$

並且我們令最佳解為 $\hat{x}$.

  • 如果 $A$ 的 columns 線性獨立 $$ \hat{x} = (A^TA)^{-1}A^Tb. $$
    • 如果對 $A$ 做 (reduced) QR, $A=QR$, 並且 $Q^TQ=I_{n\times n}$, $$ \hat{x} = R^{-1}Q^Tb. $$
  • 如果 $A$ 的 columns 線性相依

    則有無窮多解, 以下是一特解 (並且是所有的解裡面長度最短的).

    • 對 $A$ 做 (reduced) QR, $A=QR$, 並且 $Q^TQ=I_{r\times r}$, $$ \hat{x} = R^T(RR^T)^{-1}Q^Tb. $$
    • 或是若 $\text{rank}(A)=n$, 則可對 $A^T$ 做 (reduced) QR, $A^T=QR$, 並且 $Q^TQ=I_{m\times m}$, $$ \hat{x} = Q(R^T)^{-1}b. $$

Avatar
Te-Sheng Lin (林得勝)
Associate Professor

The focus of my research is concerned with the development of analytical and computational tools, and further to communicate with scientists from other disciplines to solve engineering problems in practice.