Linear Discriminant Analysis (binaria)

Voce	LDA (forma binaria)
Modello generativo	Ogni classe è descritta da una gaussiana multivariata con media propria ma stessa matrice di covarianza completa
$\Sigma:p(\bold x	C=c)=\mathcal N(\bold x;\mu_c,\Sigma),\\ c\in\{0,1\}$
Obiettivo di training	Massima verosimiglianza. Con $n_c$ campioni per classe $\hat\mu_c=\frac{1}{n_c}\sum_{i\in c}\bold x_i,\\ \hat\Sigma=\frac{1}{N}\sum_c\sum_{i\in c}(\bold x_i-\hat\mu_c)(\bold x_i-\hat\mu_c)^\top$
Inferenza/discriminante	Il rapporto log-posteriori è lineare:
$\log\frac{p(C=1	\bold x)}{p(C=0
Vista di Fisher	Lo stesso classificatore si ottiene massimizzando il criterio di Fisher $J(\bold w)=\frac{\bold w^\top S_B\bold w}{\bold w S_W \bold w}$ (scatter tra classi vs. intra-classi), che porta alla stessa direzione $\bold w$.

Classificatore Tied MVG (binario)

Voce	Tied MVG
Assunzioni del modello	Identiche a quelle di LDA: due gaussiane che condividono la stessa covarianza completa (”tied”).
Obiettivo di training	Identiche stime ML per $\mu_c$ e la covarianza “pooled” $\Sigma$.
Inferenza	Test di rapporto di verosimiglianza $\Lambda(\bold x)=\log\frac{\mathcal N(\bold x;\mu_1,\Sigma)}{\mathcal N(\bold x;\mu_0,\Sigma)}=\bold w^\top\bold x+b$, per cui la regola decisionale è ancora lineare e coincide con quella di LDA.
Funzione decisionale	Stessi $\bold w,b$ di sopra, varia solo la soglia quando cambiano priors/costi applicativi.

Per due classi i due metodi sono matematicamente identici:

Il Tied MVG ricava il discriminante lineare da stime ML di un modello gaussiano a covarianza condivisa.
La Fisher-LDA (proiezione + soglie) produce lo stesso vettore dei pesi a un fattore di scala positivo.

Differiscono al più per la soglia impiegata per incorporare priors o costi.

$$ s(\bold x)=\bold w^\top\bold x+b,\ \bold w=\Sigma^{-1}(\mu_1-\mu_0),\ b=-\frac{1}{2}(\mu_1-\mu_0)^\top\bold w+\log\frac{\pi_1}{\pi_0} $$

Predici la classe 1 se $s(\bold x)>\log\frac{C_{10}\pi_0}{C_{01}\pi_1}$ (soglia Bayes-ottimale).

Funzione obiettivo - trovare una proiezione $W\in\R^{d\times(K-1)}$ al massimo $K-1$ colonne) che massimizzi

$$ J(W)=\frac{\det(W^\top S_BW)}{\det W^\top S_W W}\propto \text{tr}\left((W^\top S_WW)^{-1}W^\top S_BW\right) $$

dove $S_B$ e $S_W$ sono le matrici di scatter tra - e intra - classe. La soluzione si ottiene con i primi $K-1$ autovettori di $S_W^{-1}S_B$.
Limitazioni
- Rango ≤ $K-1$: non si possono estrarre più di $K-1$ direzioni discriminanti, anche se la dimensione originale è maggiore.
- Richiede $S_W$ invertibile; con pochi campioni e alta dimensione $S_W$ può essere singolare (”problema small-sample”).
- Ottimale solo sotto l’assuzione gaussiana omoscedastica; degrada se le covarianze differiscono o le classi non sono gaussiane.
- Essendo lineare, non separa classi linearmente inseparabili senza un mapping di feature aggiuntivo.