preguntas y respuestas sobre el análisis de componentes principales
Como señala bayerj, el PCA es un método que asume sistemas lineales, mientras que los autocodificadores (AE) no lo hacen. Si no se utiliza ninguna función no lineal en el AE y el número de neuronas en la capa oculta es de menor dimensión que la de la entrada, entonces el PCA y el AE pueden dar el mismo resultado. De lo contrario, el EA puede encontrar un subespacio diferente.
Hay que tener en cuenta que la capa oculta de un EA puede tener una dimensión mayor que la de la entrada. En estos casos, los EA pueden no estar haciendo una reducción de la dimensionalidad. En este caso, los percibimos como una transformación de un espacio de características a otro en el que los datos del nuevo espacio de características desentrañan los factores de variación.
La respuesta general es que las redes neuronales autoasociativas pueden realizar una reducción de la dimensionalidad no lineal. El entrenamiento de la red no suele ser tan rápido como el del PCA, por lo que el compromiso es el de los recursos computacionales frente a la potencia expresiva.
Sin embargo, hay una confusión en los detalles, que es un error común. Es cierto que las redes de autoasociación con funciones de activación lineales coinciden con PCA, independientemente del número de capas ocultas. Sin embargo, si sólo hay una capa oculta (entrada-oculto-salida), la red autoasociativa óptima sigue coincidiendo con PCA, incluso con funciones de activación no lineales. Para la prueba original, véase el artículo de 1988 de Bourlard y Kamp. El libro de Chris Bishop tiene un buen resumen de la situación, en el capítulo 12.4.2:
análisis de componentes principales para dummies
El análisis de componentes principales (ACP) suele explicarse mediante una descomposición propia de la matriz de covarianza. Sin embargo, también puede realizarse mediante la descomposición del valor singular (SVD) de la matriz de datos $\mathbf X$. ¿Cómo funciona? ¿Cuál es la relación entre estos dos enfoques? ¿Cuál es la relación entre SVD y PCA?
mide hasta qué punto las diferentes coordenadas en las que se dan los datos varían conjuntamente. Por lo tanto, quizá no sea sorprendente que el PCA, que está diseñado para capturar la variación de sus datos, pueda darse en términos de la matriz de covarianza. En particular, la descomposición de valores propios de $S$ resulta ser
documentos de investigación sobre el análisis de componentes principales
El análisis de componentes principales (ACP) puede utilizarse para reducir la dimensionalidad. Una vez realizada dicha reducción de la dimensionalidad, ¿cómo se pueden reconstruir aproximadamente las variables/características originales a partir de un pequeño número de componentes principales?
El PCA calcula los vectores propios de la matriz de covarianza («ejes principales») y los ordena por sus valores propios (cantidad de varianza explicada). Los datos centrados pueden entonces proyectarse sobre estos ejes principales para obtener componentes principales («puntuaciones»). A efectos de reducción de la dimensionalidad, se puede mantener sólo un subconjunto de componentes principales y descartar el resto. (Véase aquí una introducción no especializada al ACP).
Esto se ilustra en la siguiente figura: el primer subgrupo muestra algunos datos centrados (los mismos datos que utilizo en mis animaciones en el hilo enlazado) y sus proyecciones en el primer eje principal. El segundo subgrupo muestra sólo los valores de esta proyección; la dimensionalidad se ha reducido de dos a una:
Este tema surge a menudo en el contexto del procesamiento de imágenes. Consideremos el caso de Lenna, una de las imágenes estándar en la literatura de procesamiento de imágenes (siga los enlaces para encontrar su origen). Abajo, a la izquierda, muestro la variante en escala de grises de esta imagen de 512$ por 512$ (archivo disponible aquí).
descomposición del valor singular
PCA de una distribución gaussiana multivariante centrada en (1,3) con una desviación estándar de 3 en la dirección aproximada de (0,866, 0,5) y de 1 en la dirección ortogonal. Los vectores mostrados son los vectores propios de la matriz de covarianza escalados por la raíz cuadrada del valor propio correspondiente, y desplazados para que sus colas estén en la media.
vectores. En este caso, la línea que mejor se ajusta se define como aquella que minimiza la distancia cuadrada media de los puntos a la línea. Estas direcciones constituyen una base ortonormal en la que las diferentes dimensiones individuales de los datos están linealmente descorrelacionadas. El análisis de componentes principales (ACP) es el proceso de calcular los componentes principales y utilizarlos para realizar un cambio de base en los datos, a veces utilizando sólo los primeros componentes principales e ignorando el resto.
El ACP se utiliza en el análisis exploratorio de datos y para la elaboración de modelos predictivos. Se suele utilizar para la reducción de la dimensionalidad, proyectando cada punto de los datos sólo en los primeros componentes principales para obtener datos de menor dimensión, preservando al mismo tiempo la mayor parte posible de la variación de los datos. El primer componente principal puede definirse de forma equivalente como una dirección que maximiza la varianza de los datos proyectados. La dirección