林琮詠 | Te-Sheng Lin

高斯判別分析-2

Wed, 24 Dec 2025 00:00:00 +0000

Gaussian Discriminant Analysis (GDA) - 2

這裡我們補充一下 GDA 裡的數學推導部分。

假設我們有一組已標記的資料 $(\mathbf{x}_i, y_i)$，其中：

$\mathbf{x}_i \in \mathbb{R}^d$：第 $i$ 筆資料的 $d$-維特徵向量（例如身高和體重）。
$y_i \in {0, 1}$：標示資料的類別（例如 0 表女生、1 表男生）。

我們的目標是：

給定一筆新的資料 $\mathbf{x}$，判斷它屬於哪一個類別比較合理。

在 GDA 中，這個判斷是透過貝式定理（Bayes' theorem）來完成的，因此我們先回顧一下貝式定理的形式。

對於一筆特徵向量 $\mathbf{x}$，它屬於類別 $y$ 的後驗概率為： $$ P(y = 1 \mid \mathbf{x}) = \frac{P(\mathbf{x} \mid y = 1) P(y = 1)}{P(\mathbf{x})}. $$ 這個公式告訴我們，要計算「在看到資料 $\mathbf{x}$ 之後，它是男生的可能性有多大」，我們需要三個量：

$P(\mathbf{x} \mid y)$：在已知類別的情況下，資料長成 $\mathbf{x}$ 的機率（這是 GDA 的核心假設），
$P(y)$：類別的先驗機率（例如男生、女生各自的比例），
$P(\mathbf{x})$：資料 $\mathbf{x}$ 出現的總機率（作為正規化常數）。

接下來，我們會一步步說明 GDA 是如何對這些機率做建模，以及最後如何得到分類的決策規則。

1. $P(\mathbf{x} \mid y)$

在 GDA 裡，我們假設每個類別的特徵向量都服從高斯分布： $$ \mathbf{x} \mid y = k\sim \mathcal{N}(\mu_k, \Sigma_k), $$ 也就是說，對於每個類別，我們認為資料大致「長這個樣子」，由平均值 $\mu_k$ 描述中心位置，由共變異數矩陣 $\Sigma_k$ 描述資料的擴散與形狀。

因此，計算 $P(\mathbf{x} \mid y)$ 就變成估計這兩個參數：

將所有屬於類別 $y=k$ 的資料收集起來。
計算它們的平均值 $\mu_k$ 和共變異數矩陣 $\Sigma_k$。
代入高斯分布公式，就得到了 $P(\mathbf{x} \mid y)$。

1.1 共用共變異數矩陣（LDA 特例）

在線性判別分析（LDA）中，我們做了一個簡化假設：假設所有類別共享同一個共變異數矩陣 $$ \Sigma_k=\Sigma, \quad \forall k. $$ 這個假設帶來兩個好處：

需要估計的參數變少，更穩定，尤其是資料量不大時。
決策邊界變成線性的（直線或超平面），計算上更簡單。

也就是說，LDA 是 GDA 的一個特例，它在假設更嚴格的情況下，把決策邊界從二次曲線簡化成線性曲線。

2. Maximum Likelihood Estimation (MLE)

2.1 Likelihood function

假設我們有二分類資料 $(\mathbf{x}_i, y_i)$，$i=1,\dots,n$，$y_i \in \{0,1\}$。

類別先驗： $$ P(y=1) = \phi, \quad P(y=0)=1-\phi. $$
條件分布： $$ \mathbf{x} \mid y = k\sim \mathcal{N}(\mu_k, \Sigma_k). $$

則整體的 likelihood function 為 $$ L(\phi, \mu_k, \Sigma_k) = \prod^n_{i=1} P(\mathbf{x}_i, y_i)= \prod^n_{i=1} P(\mathbf{x}_i\mid y_i)P(y_i). $$ 展開後得到 $$ L = \prod_{i, y=1}\phi \mathcal{N}(\mathbf{x}_i \mid \mu_1, \Sigma_1)\prod_{i, y=0}(1-\phi) \mathcal{N}(\mathbf{x}_i \mid \mu_0, \Sigma_0). $$

2.2 Log-Likelihood

取 $\log$ 之後得到 log-likelihood： $$ \ell(\phi, \mu_k, \Sigma_k) = \sum_{i, y=1}\log\phi+\log\mathcal{N}(\mathbf{x}_i \mid \mu_1, \Sigma_1)+\sum_{i, y=0}\log(1-\phi)+\log\mathcal{N}(\mathbf{x}_i \mid \mu_0, \Sigma_0). $$

2.3 Estimator

將 log-likelihood 對 $\phi$ 微分求極值後就可以得到 $$ \phi = \frac{\text{類別 1 的樣本數}}{\text{總樣本數}}. $$
將 log-likelihood 對 $\mu_k$ 求導並設為 $0$，得到： $$ \mu_k= \frac{1}{n_k}\sum_{{i, y=k}}\mathbf{x}_i, $$ 其中 $n_k$ 是類別 $k$ 的樣本數。因此 $\mu_k$ 就是類別 $k$ 的平均值。
將 log-likelihood 對 $\Sigma_k$ 求導並設為 $0$，得到： $$ \Sigma_k = \frac{1}{n_k}\sum_{i, y=k}(\mathbf{x}_i - \mu_k)(\mathbf{x}_i - \mu_k)^T. $$ 因此 $\Sigma_k$ 就是類別 $k$ 的共變異數矩陣。
在 LDA 這個特殊情況時，我們假設 $\Sigma_k=\Sigma$，一樣將 log-likelihood 對 $\Sigma$ 求導並設為 $0$，得到： $$ \Sigma = \frac{n_0}{n} \Sigma_0 + \frac{n_1}{n} \Sigma_1. $$ 也就是說，在這情況下共變異數矩陣是加權平均，按每個類別的樣本數加權。

3 優化與預測

最後總結一下，對於給定的分類資料，我們的訓練與預測流程如下：

訓練：通過最大似然估計（Maximum Likelihood Estimation, MLE）計算模型參數 $$ (\phi, \mu_k, \Sigma_k). $$
預測分類：對於新的資料點 $\mathbf{x}$，若 $$ P(y = 1 \mid \mathbf{x}) > P(y = 0 \mid \mathbf{x}), $$ 則預測為 $y = 1$；反之為 $y = 0$。

備註: 在計算後驗機率 $P(y = k \mid \mathbf{x})$ 時，公式裡會有分母 $P(\mathbf{x})$，它表示「不管它屬於哪個類別，$\mathbf{x}$ 出現的總機率」。不過在實務上，我們不需要特別算它，因為在比較分類結果時，分母對所有類別都是一樣的，所以只要比較分子就可以直接做分類。

4. 決策邊界

4.1 LDA 決策邊界

假設二分類資料 $y \in \{0,1\}$，條件分布為 $$ \mathbf{x} \mid y=k \sim \mathcal{N}(\mu_k, \Sigma), \quad k=0,1, $$ 其中所有類別共享同一個共變異數矩陣 $\Sigma$。

LDA 的決策規則很直觀：如果 $$ P(y=1 \mid \mathbf{x}) > P(y=0 \mid \mathbf{x}), $$ 則預測 $y=1$。這決策規則也可以等價改寫成以下兩種形式： $$ \frac{P(y=1 \mid \mathbf{x})}{P(y=0 \mid \mathbf{x})} > 1, \quad \log \frac{P(y=1 \mid \mathbf{x})}{P(y=0 \mid \mathbf{x})} > 0. $$

具體而言，對數比（log-odds）可以展開為： $$ \begin{align} \log \frac{P(y=1 \mid \mathbf{x})}{P(y=0 \mid \mathbf{x})} =& \mathbf{x}^T \underbrace{\Sigma^{-1} (\mu_1 - \mu_0)}_{\mathbf{x}^T \mathbf{w}} \\
&-\frac{1}{2} (\mu_1^T \Sigma^{-1} \mu_1 - \mu_0^T \Sigma^{-1} \mu_0) + \log \frac{\phi}{1-\phi}. \end{align} $$ 因此我們令 $$ \mathbf{w} = \Sigma^{-1} (\mu_1 - \mu_0), \quad b = - \frac{1}{2} (\mu_1^T \Sigma^{-1} \mu_1 - \mu_0^T \Sigma^{-1} \mu_0) + \log \frac{\phi}{1-\phi}, $$ 則決策邊界可寫成簡單的線性形式： $$ \mathbf{w}^T \mathbf{x} + b = 0 $$ 這條超平面（在二維情況下就是直線）就是 LDA 的決策邊界。

4.2 GDA 決策邊界

若我們假設每個類別有自己的共變異數矩陣，則對數比變成：

$$ \begin{align} \log \frac{P(y=1 \mid \mathbf{x})}{P(y=0 \mid \mathbf{x})} =&-\frac{1}{2} \Big[ (\mathbf{x}-\mu_1)^T \Sigma_1^{-1} (\mathbf{x}-\mu_1) - (\mathbf{x}-\mu_0)^T \Sigma_0^{-1} (\mathbf{x}-\mu_0) \Big] \\
& - \frac{1}{2} \log \frac{|\Sigma_1|}{|\Sigma_0|} + \log \frac{\phi}{1-\phi}. \end{align} $$ 因為共變異數矩陣不同，因此二次項不會抵銷，決策邊界是一條二次曲線（椭圓、拋物線或雙曲線），又稱為 Quadratic Discriminant Analysis (QDA)。

高斯判別分析-1

Tue, 23 Dec 2025 00:00:00 +0000

Gaussian Discriminant Analysis (GDA) - 1

1. 概述

高斯判別分析（GDA）是一種生成式分類模型，是機器學習中的概率模型。它假設每個類別的特徵都遵循高斯分佈，並利用貝式定理來進行分類。

2. 簡單舉例

假設我們手上有一些男生與女生的身高與體重資料。我們的目標是：未來只要給定一個人的身高和體重，就能判斷他比較可能是男生還是女生。

在 GDA（Gaussian Discriminant Analysis）中，我們真正想回答的問題其實是：

在已知這個人的身高與體重之後，他是男生（或女生）的機率有多大？

為了回答這個問題，GDA 假設男生與女生的身高–體重資料，各自來自不同的二維高斯分布。透過現有資料，我們可以分別估計出男生與女生的平均身高體重，以及資料的變異程度（也就是分布的形狀與擴散情況）。

一旦這些分布被估計出來，對於任何一個給定的身高–體重組合，GDA 都可以計算：

在男生分布下，出現這個資料點的可能性
在女生分布下，出現這個資料點的可能性

再結合各類別本身出現的比例，就能算出這個人屬於男生或女生的後驗機率。

當某一點在「男生」與「女生」兩個類別下的機率剛好一樣時，這些點就形成了分類的分界線。把所有這樣的點連起來，就能在身高–體重平面上畫出一條決策邊界（decision boundary），用來區分男生與女生。

因此，GDA 模型實際上做了兩件事情：

對單一個體進行機率判斷：給定身高與體重，計算他屬於男生或女生的機率。
在整個特徵空間中建立分類規則：由機率相等的條件導出決策邊界，之後可以直接用這條邊界進行分類。

3. 為什麼 GDA 被稱為生成式模型？

生成式模型的核心想法是：先學會每一類資料「長什麼樣子」，再用這個模型來做判斷。

具體來說，它會關心三件事：

這個點屬於哪一類？
每一類的資料大致分布在哪個區域、形狀如何？
如果只知道這一類的模型，甚至能不能「生成」看起來合理的新資料？

也就是說，生成式模型不是只關心「怎麼分」，而是試著回答一個更根本的問題：

現實世界中的資料是怎麼被產生出來的？

3.1 GDA 如何體現「生成式」的想法？

在 Gaussian Discriminant Analysis（GDA）中，我們直接假設資料的生成方式：

每一個類別的資料，都是由某個高斯分布隨機產生的。

回到身高–體重的例子，我們假設：

男生的身高–體重資料來自一個二維高斯分布
女生的身高–體重資料來自另一個二維高斯分布

透過已知的資料，我們可以分別估計：

每一類的平均位置（例如典型的身高與體重）
資料的擴散程度與方向（變異數與相關性）

一旦這些分布被學好，我們可以：

計算「某個人屬於男生或女生的機率」
畫出對應的決策邊界
從模型中隨機產生新的身高–體重資料點

這正是 GDA 被稱為生成式模型的原因：它先建立「資料如何生成」的模型，再由這個模型自然地導出分類結果。

4. 與判別式模型的差別

到目前為止，我們看到 GDA 是一種生成式模型：它先嘗試理解「每一類資料是怎麼產生的」，再利用這個對資料生成機制的理解來進行分類。

那麼，另一大類在機器學習中同樣非常常見的方法——判別式模型（discriminative models）——又是在做什麼呢？

4.1 生成式 vs. 判別式模型

判別式模型（例如 Logistic Regression）不關心資料是怎麼產生的，它只關心一個問題：

給定一筆觀測到的資料，我要怎麼直接把它分到正確的類別？

換句話說，假設資料為 $\mathbf{x}$, 相對應的類別為 $y$，判別式模型直接學習的是 $$ P(y\mid \mathbf{x}), $$ 也就是：在已經看到資料 $\mathbf{x}$ 的情況下，它屬於類別 $y$ 類別的機率有多大。

相對地，生成式模型採取的是完全不同的觀點。它不直接問「這筆資料該分到哪一類」，而是先學習 $$ P(\mathbf{x} \mid y), $$ 也就是，如果資料真的來自類別 $y$，那我們觀察到 $\mathbf{x}$ 的機率會有多大？

一旦我們知道了每個類別「會產生什麼樣的資料」，再搭配類別本身出現的機率 $P(y)$，就可以透過貝氏定理反推出 $P(y\mid \mathbf{x})$，進而完成分類。

更白話一點的來說，GDA 關心的是「世界怎麼產生資料」，Logistic Regression 關心的是「邊界畫在哪裡」。

5. 決策邊界長什麼樣？

在 GDA 裡，模型最後畫出來的「分界線」長什麼樣子，其實取決於我們對資料分布做了多嚴格的假設。

5.1 情況一：所有類別看起來「形狀一樣」

如果我們假設不同類別的資料只是中心點不同，但「散開的方向與程度」都一樣（也就是：所有類別共用同一個共變異數矩陣）。那麼模型畫出來的分界線就會是一條直線（在高維空間則是一個超平面）。

在這種情況下，GDA 做出來的分類結果，其實和 Logistic Regression 非常接近，甚至在某些條件下是等價的。

5.2 情況二：每一類都有自己的「形狀」

如果我們允許不同類別的資料有不同的擴散方向與形狀（也就是：每一類都有自己的共變異數矩陣）。那模型就能畫出更彎曲、彈性的分界線，例如橢圓、拋物線這類的二次曲線。

這樣的 GDA 就能處理比較複雜、非線性的分類問題。

5.3 小總結

假設越簡單，邊界越直；假設越自由，邊界越彎。

如果所有類別共用同一個共變異數矩陣
- → 決策邊界是線性的（一條直線 / 超平面）
- → 這時其實等價於 Logistic Regression（在某些條件下）
如果每一類有自己的共變異數矩陣
- → 決策邊界二次曲線（橢圓、拋物線等）

6. GDA 的優點與限制

為什麼大家會用 GDA？

在資料量不大時，效果往往很好

當資料量還不大的時候，GDA 常常能用「比較少的參數」抓到整體結構，反而比複雜模型表現更好。
模型有清楚的機率意義、可解釋

GDA 不只告訴你「分到哪一類」，還能說「有多像這一類」。這在需要解釋模型判斷理由的情境（例如科學或醫療）特別重要。
類別不平衡也處理得很自然

如果某一類本來就比較少，GDA 可以直接把「這一類本來就少見」這件事放進模型裡（先驗機率），不需要額外技巧。

使用 GDA 時要注意什麼？

高斯假設若不合理，效果會變差

GDA 假設資料「長得像高斯分布」，如果實際資料分布歪得很厲害，模型就容易判斷錯。
對離群值（outliers）較敏感

少數特別奇怪的資料（離群值）可能會影響平均值和變異數，進而拉歪整個模型。
高維時，共變異數估計可能不穩定

當特徵很多、但資料又不夠多時，共變異數矩陣會很難估，模型容易變得不可靠。

7. 小總結

Gaussian Discriminant Analysis（GDA）是一種以機率為核心的生成式分類方法。它不是直接學「怎麼分界」，而是先去理解每一類資料是怎麼產生的。

在 GDA 中，我們假設每個類別的資料都來自一個高斯分布，並透過資料估計出各類別的平均值與分布形狀。當看到一筆新資料時，GDA 會利用貝氏定理，計算它在不同類別下出現的可能性，並選擇最有可能的那一類。因此，分類結果與決策邊界並不是硬設計出來的，而是自然地由資料分布決定：

分布形狀相似時，邊界接近直線
分布形狀不同時，邊界會變成彎曲的曲線

整體而言，GDA 提供了一個直觀、可解釋、機率意義清楚的分類框架，也讓我們清楚看見「生成式模型」與「判別式模型」在思維上的根本差異。

備註：GDA 的數學推導部分請見 GDA - 2。