| Voce | LDA (forma binaria) |
|---|---|
| Modello generativo | Ogni classe è descritta da una gaussiana multivariata con media propria ma stessa matrice di covarianza completa |
| $\Sigma:p(\bold x | C=c)=\mathcal N(\bold x;\mu_c,\Sigma),\\ c\in\{0,1\}$ |
| Obiettivo di training | Massima verosimiglianza. Con $n_c$ campioni per classe $\hat\mu_c=\frac{1}{n_c}\sum_{i\in c}\bold x_i,\\ \hat\Sigma=\frac{1}{N}\sum_c\sum_{i\in c}(\bold x_i-\hat\mu_c)(\bold x_i-\hat\mu_c)^\top$ |
| Inferenza/discriminante | Il rapporto log-posteriori è lineare: |
| $\log\frac{p(C=1 | \bold x)}{p(C=0 |
| Vista di Fisher | Lo stesso classificatore si ottiene massimizzando il criterio di Fisher $J(\bold w)=\frac{\bold w^\top S_B\bold w}{\bold w S_W \bold w}$ (scatter tra classi vs. intra-classi), che porta alla stessa direzione $\bold w$. |
| Voce | Tied MVG |
|---|---|
| Assunzioni del modello | Identiche a quelle di LDA: due gaussiane che condividono la stessa covarianza completa (”tied”). |
| Obiettivo di training | Identiche stime ML per $\mu_c$ e la covarianza “pooled” $\Sigma$. |
| Inferenza | Test di rapporto di verosimiglianza $\Lambda(\bold x)=\log\frac{\mathcal N(\bold x;\mu_1,\Sigma)}{\mathcal N(\bold x;\mu_0,\Sigma)}=\bold w^\top\bold x+b$, per cui la regola decisionale è ancora lineare e coincide con quella di LDA. |
| Funzione decisionale | Stessi $\bold w,b$ di sopra, varia solo la soglia quando cambiano priors/costi applicativi. |
Per due classi i due metodi sono matematicamente identici:
Differiscono al più per la soglia impiegata per incorporare priors o costi.
$$ s(\bold x)=\bold w^\top\bold x+b,\ \bold w=\Sigma^{-1}(\mu_1-\mu_0),\ b=-\frac{1}{2}(\mu_1-\mu_0)^\top\bold w+\log\frac{\pi_1}{\pi_0} $$
Predici la classe 1 se $s(\bold x)>\log\frac{C_{10}\pi_0}{C_{01}\pi_1}$ (soglia Bayes-ottimale).
Funzione obiettivo - trovare una proiezione $W\in\R^{d\times(K-1)}$ al massimo $K-1$ colonne) che massimizzi
$$ J(W)=\frac{\det(W^\top S_BW)}{\det W^\top S_W W}\propto \text{tr}\left((W^\top S_WW)^{-1}W^\top S_BW\right) $$
dove $S_B$ e $S_W$ sono le matrici di scatter tra - e intra - classe. La soluzione si ottiene con i primi $K-1$ autovettori di $S_W^{-1}S_B$.
Limitazioni