Confrontare PCA e LDA riguardo a:
| PCA | LDA (Fisher) | |
|---|---|---|
| Paradigma di apprendimento | Non supervisionato | Supervisionato |
| Obiettivo principale | Trovare uno spazio lineare di dimensione m che preservi la massima varianza possibile (compressione dell’informazione/riduzione del rumore). | Trovare al massimo k-1 direzioni che massimizzino la separazione fra classi, allontanando le medie di classe e mantenendo ciascuna classe compatta. |
| Dati usati | Solo la matrice centrata $X =[x_1,...,x_K]$. | La stessa matrice più le etichette $C\in \{1, ..., k\}$. |
| Proiezione | $y=P^\top(x-\bar x),\\ P\in\R^{n\times m},\ P^\top P=I$ | $y=W^\top x,\\ W=[w_1,...w_{k-1}]\in\R^{n\times(k-1)}$ |
Minimizzare l’errore medio di ricostruzione:
$$ \underset{P^\top P=I}{\min}\frac{1}{K}\sum^K_{i=1}||x_i-PP^\top x_i||^2 $$
equivalente a massimizzare la varianza conservata:
$$ \underset{P\top P=I}{\max}\text{Tr}\left(P^\top CP\right),\ C=\frac{1}{K}\sum_i(x_i-\bar x)(x_i-\bar x)^\top $$
Massimizzare il quoziente generalizzato di Rayleigh:
$$ \underset{w\ne 0}{\max}J(w)=\frac{w^\top S_Bw}{w^T S_Ww},\ S_B=\sum_cn_c(\mu_c-\mu)(\mu_c-\mu)^\top,\\ S_W=\sum_c\sum_{i\in c}(x_i-\mu_c)(x_i-\mu_c)^\top $$
Porta al problema agli autovalori:
$$ S_Bv=\lambda S_Wv $$
da cui si ottengono al massimo $k-1$ autovettori rilevanti che formano $W$.