Linear Discriminant Analysis (binaria)

Voce LDA (forma binaria)
Modello generativo Ogni classe è descritta da una gaussiana multivariata con media propria ma stessa matrice di covarianza completa
$\Sigma:p(\bold x C=c)=\mathcal N(\bold x;\mu_c,\Sigma),\\ c\in\{0,1\}$
Obiettivo di training Massima verosimiglianza. Con $n_c$ campioni per classe $\hat\mu_c=\frac{1}{n_c}\sum_{i\in c}\bold x_i,\\ \hat\Sigma=\frac{1}{N}\sum_c\sum_{i\in c}(\bold x_i-\hat\mu_c)(\bold x_i-\hat\mu_c)^\top$
Inferenza/discriminante Il rapporto log-posteriori è lineare:
$\log\frac{p(C=1 \bold x)}{p(C=0
Vista di Fisher Lo stesso classificatore si ottiene massimizzando il criterio di Fisher $J(\bold w)=\frac{\bold w^\top S_B\bold w}{\bold w S_W \bold w}$ (scatter tra classi vs. intra-classi), che porta alla stessa direzione $\bold w$.

Classificatore Tied MVG (binario)

Voce Tied MVG
Assunzioni del modello Identiche a quelle di LDA: due gaussiane che condividono la stessa covarianza completa (”tied”).
Obiettivo di training Identiche stime ML per $\mu_c$ e la covarianza “pooled” $\Sigma$.
Inferenza Test di rapporto di verosimiglianza $\Lambda(\bold x)=\log\frac{\mathcal N(\bold x;\mu_1,\Sigma)}{\mathcal N(\bold x;\mu_0,\Sigma)}=\bold w^\top\bold x+b$, per cui la regola decisionale è ancora lineare e coincide con quella di LDA.
Funzione decisionale Stessi $\bold w,b$ di sopra, varia solo la soglia quando cambiano priors/costi applicativi.

Relazione fra i due modelli

Per due classi i due metodi sono matematicamente identici:

Differiscono al più per la soglia impiegata per incorporare priors o costi.

Regole decisionali chiuse

$$ s(\bold x)=\bold w^\top\bold x+b,\ \bold w=\Sigma^{-1}(\mu_1-\mu_0),\ b=-\frac{1}{2}(\mu_1-\mu_0)^\top\bold w+\log\frac{\pi_1}{\pi_0} $$

Predici la classe 1 se $s(\bold x)>\log\frac{C_{10}\pi_0}{C_{01}\pi_1}$ (soglia Bayes-ottimale).

LDA come riduzione dimensionale (multiclasse)