Riformulazione del problema

Confrontare PCA e LDA riguardo a:

  1. Obiettivi e formulazione matematica.
  2. Criterio di ottimizzazione usato in addestramento.
  3. Proprietà delle direzioni ottenute (componenti/discriminanti).
  4. Impiego all’interno di un classificatore.

1. Obiettivi e formulazione di base

PCA LDA (Fisher)
Paradigma di apprendimento Non supervisionato Supervisionato
Obiettivo principale Trovare uno spazio lineare di dimensione m che preservi la massima varianza possibile (compressione dell’informazione/riduzione del rumore). Trovare al massimo k-1 direzioni che massimizzino la separazione fra classi, allontanando le medie di classe e mantenendo ciascuna classe compatta.
Dati usati Solo la matrice centrata $X =[x_1,...,x_K]$. La stessa matrice più le etichette $C\in \{1, ..., k\}$.
Proiezione $y=P^\top(x-\bar x),\\ P\in\R^{n\times m},\ P^\top P=I$ $y=W^\top x,\\ W=[w_1,...w_{k-1}]\in\R^{n\times(k-1)}$

2. Criterio di addestramento

PCA

Minimizzare l’errore medio di ricostruzione:

$$ \underset{P^\top P=I}{\min}\frac{1}{K}\sum^K_{i=1}||x_i-PP^\top x_i||^2 $$

equivalente a massimizzare la varianza conservata:

$$ \underset{P\top P=I}{\max}\text{Tr}\left(P^\top CP\right),\ C=\frac{1}{K}\sum_i(x_i-\bar x)(x_i-\bar x)^\top $$

LDA

Massimizzare il quoziente generalizzato di Rayleigh:

$$ \underset{w\ne 0}{\max}J(w)=\frac{w^\top S_Bw}{w^T S_Ww},\ S_B=\sum_cn_c(\mu_c-\mu)(\mu_c-\mu)^\top,\\ S_W=\sum_c\sum_{i\in c}(x_i-\mu_c)(x_i-\mu_c)^\top $$

Porta al problema agli autovalori:

$$ S_Bv=\lambda S_Wv $$

da cui si ottengono al massimo $k-1$ autovettori rilevanti che formano $W$.