DID Diagnóstico por Imagen de Datos y Textos: noviembre 2009

martes, 3 de noviembre de 2009

FactoClass de R

Combinación de Métodos Factoriales y Análisis de Cluster

La creación de paquetes portables facilita la labor académica cuando se utiliza R como lenguaje para la ejecución de los métodos estadísticos. Un paquete es útil aun cuando no se requiera la programación de nuevas funciones, ya que se pueden incluir tablas de datos y líneas de comandos para los talleres de un curso (Campo, 2007).

Para el análisis de una tabla de datos haciendo uso de métodos multivariados, Lebart et al. (1995) presenta una estrategia que consiste en realizar primero un análisis factorial según la naturaleza de los datos y luego una clasiﬁcación basada en un algoritmo mixto: clasiﬁcación jerárquica con el método de Ward y agregación alrededor de centros móviles (K-medias). Finalmente se obtiene una partición del conjunto de datos y la caracterización de cada una de las clases, según las variables activas e ilustrativas, ya sean cuantitativas o cualitativas. Para la caracterización de las clases se utilizan los valores test, que son índices descriptivos construidos siguiendo la metodología de pruebas de hipótesis, pero sin el objetivo de hacer inferencias. La ordenación de los valores test dentro de cada clase permite obtener las variables continuas que la caracterizan positivamente, en el sentido de que la media de la clase es suﬁcientemente mayor de la media global, o negativamente cuando la media de la clase es inferior. Para las categorías de variables nominales, la ordenación permite obtener aquellas categorías cuya proporción dentro de la clase se diferencia lo suﬁciente de la proporción global, ya sea porque es mayor (valor test positivo) o menor (valor test negativo).

La utilización de las coordenadas factoriales permite tener un marco común en el proceso de formación de conglomerados. Para el proceso de clasiﬁcación el análisis factorial previo se constituye en un pretratamiento, que transforma los datos originales en variables continuas no correlacionadas. Tomar todos los factores para la formación de conglomerados es equivalente a efectuar una clasiﬁcación de las ﬁlas de la tabla de datos utilizando las variables originales. Tomar menos factores implica realizar un ﬁltrado: se supone que los ejes utilizados para la clasiﬁcación tienen la información relevante y que los desechados se deben a las ﬂuctuaciones aleatorias que constituyen el ruido. El diagrama de valores propios orienta la decisión del número de ejes que se utilizan en la clasiﬁcación. Algunas veces, sobre todo en tablas pequeñas, se usan todos los ejes. (Campo, 2007).

El método de Ward utiliza la distancia entre clases que cumple con el objetivo de unir, en cada paso del proceso de aglomeración, las dos clases que incrementen menos la inercia intraclases.

El algoritmo K-medias para la obtención de una partición directa de un conjunto de “individuos” por variables cuantitativas requiere el número de clases por obtener y de puntos iniciales para cada una de ellas. La propuesta de Lebart et al. (1995) es utilizarlo para obtener una partición que minimice la inercia intraclases. Esto se logra localmente (depende de los puntos iniciales) usando la distancia euclidiana canónica entre los individuos y los centros móviles utilizados para la agregación. En cada paso del algoritmo se actualizan los centros móviles calculando los centros de gravedad de la partición obtenida del paso anterior.

Para seleccionar las variables continuas o las categorías de las variables nominales más características de cada clase, se mide la desviación entre los valores relativos a la clase y los valores globales, utilizando los valores test.

Sintaxis del commando en R:

FactoClass( dfact, metodo, dfilu = NULL , nf = 2, nfcl = 10, k.clust = 3,

scanFC = TRUE , n.max = 5000 , n.clus = 1000 ,sign = 2.0,

conso=TRUE , n.indi = 25 )

print.FactoClass(x, ...)

analisis.clus(X,W)

En el paquete de R FactoClass (Campo, 2007), se implementa la estrategia descrita en Lebart et al. (1995), que combina métodos factoriales con análisis de conglomerados, en la exploración multivariada de tablas de datos. FactoClass es una función que conecta a las funciones de ade4 (Chessel et al. 2004) para realizar el análisis factorial de los datos y de stats para el análisis de conglomerados. Funciones complementarias que, incluyendo para producir salidas en formato L ATEX1, utilizando el paquete xtable (Dahl 2006).

Argumentos:

dfact	Objeto de la clase data.frame, Con los datos de las variables activas.
metodo	Función de ade4 para análisis factorial, dudi.pca, Análisis de Componentes Principales; dudi.coa, Análisis de Correspondencias; dudi.acm, Análisis de Correspondencias Múltiples witwit.coa, Análisis de la correspondencia interna;...
dfilu	Variables ilustrativas (por defecto NULL).
nf	Número de ejes a utilizar en el análisis factorial (por defecto 2).
nfcl	Número de ejes a utilizar en la clasificación (por defecto 10).
k.clust	Número de clases para trabajar (por defecto 3).
scanFC	Si es cierto, pide en la consola los valores nf, nfcl y k.clust
n.max	si rowname(dfact)> = n.max, antes realiza k-means (por defecto 5000)
n.clus	si rowname(dfact)> = n.max, antes realiza k-means con n.clus grupos (por defecto 1000)
sign	Valor umbral de prueba para demostrar las características y modalidades de las variables.
conso	proceso de consolidación de la clasificación (por defecto TRUE)
n.indi	Número de los índices para dibujar en el histograma (por defecto 25).
x	objeto de la clase FactoClass
X	coordenadas de los elementos de una clase
W	ponderaciones de los elementos de una clase

...

FactoClass utiliza el paquete estadístico ade4 (Chessel et al. 2004) para realizar el análisis factorial de los datos. Estas funciones retornan un objeto de tipo dudi con los valores y vectores propios y las coordenadas factoriales de las ﬁlas y columnas. Las demás ayudas a la interpretación se obtienen con la función inertia.dudi.

Las funciones dudi de ade4 reciben los datos en un objeto data.frame y utlizan todas las columnas como activas. El paquete ade4 tiene varias funciones para obtener los planos factoriales; si embargo en FactoClass se incluye la función planfac que recibe un objeto dudi y produce un plano factorial similar a los del paquete ade4.

La función ward.cluster transforma la distancia euclidiana en distancia de Ward y llama la función hclust del paquete básico stats. En ward.cluster se incluye una gráﬁca de los índices de nivel para facilitar la decisión de cuántas clases seleccionar para la partición.

La función kmeans de stats no maneja pesos distintos para las ﬁlas. Estos pesos inﬂuyen en los centros de gravedad y en las inercias intra de las clases. Se modiﬁcó (Campo, 2007) esta función para incluir los pesos de las ﬁlas y obtener las inercias intra clases; se nombra kmeansW. En su opción por defecto la función kmeans utiliza el algoritmo de Hartigan & Wong (1979).

Para la caracterización de las clases, se incluye la función cluster.carac, donde se calculan los valores test y se retorna un objeto list con información similar a la que se obtiene en los programas SPAD (Lebart et al. 1999) y DTM (Lebart 2007).

La función analisis.clus calcula las características geométricas de cada clase: el tamaño, la inercia, el peso y el cuadrado de la distancia de origen.

Para impresión en formato de látex ver FactoClass.tex ()

Para dibujar planos factorial ver con el grupo plotFactoClass (), recibe un objeto de tipo FactoClass y produce el plano factorial solicitado.

Objeto de la clase FactoClass:

dudi	objeto de la clase dudi de ade4 con las especificaciones del análisis factorial
nfcl	número de ejes seleccionados para la clasificación
k	número de clases
indices	tabla de los índices obtenidos mediante el método de WARD
cor.clus	coordenadas de los grupos
clus.summ	resumen de los grupos
cluster	vector que indica el grupo de cada uno de los elementos
carac.cate	caracterización del grupo por variables cualitativas
carac.cont	caracterización del grupo por las variables cuantitativas
carac.frec	caracterización del grupo por las variables frecuencia activa

El término clasiﬁcación se utiliza como sinónimo de análisis o formación de conglomerados o clasiﬁcación no supervisada. En ningún momento hace referencia a la clasiﬁcación supervisada o discriminación

Ejemplos [Package FactoClass version 0.7.1

# El análisis de clusters con el Análisis de Correspondencias

data(ColorAdjetive)

FC.col <-FactoClass(ColorAdjetive, dudi.coa)

FC.col

FC.col$dudi

# El análisis de clusters con el Análisis de Correspondencias Múltiples

data(BreedsDogs)

BD.act <- BreedsDogs[-7] # active variables

BD.ilu <- BreedsDogs[7] # ilustrative variables

FC.bd <-FactoClass( BD.act, dudi.acm, k.clust = 4,scanFC = FALSE, dfilu = BD.ilu, nfcl = 10)

FC.bd

FC.bd$clus.summ

FC.bd$indices

Autores

Pedro Cesar del Campo {pcdelcampon@unal.edu.co},
Campo Elías Pardo mailto:%7Bcepardot@unal.edu.co} {http://www.docentes.unal.edu.co/cepardot},
Mauricio Sadinle {msadinleg@unal.edu.co}

Referencias

El paquete FactoClass se instala en R (versión 2.4.1 en adelante) a partir del zip disponible en la página: http://www.docentes.unal.edu.co/cepardot/docs/

§ Campo Elías Pardo & Pedro César Del Campo, Combinación de métodos factoriales y de análisis de conglomerados en R, Revista Colombiana de Estadística 30 (2007) 231–245

§ Chessel, D., Dufour, A. B. & Thioulouse, J. (2004), ‘The ade4 Package - I: One table Methods’, R News 4(1), 5–10.

§ Dahl, D. B. (2006), xtable: Export Tables to LaTeX or HTML. David B. Dahl with contributions from many others. R package version 1.4-2

§ Lebart, L. (2007), ‘DTM. Data and Text Mining’, Software. *http://ses.enst.fr/lebart/

§ Lebart, L., Morineau, A. & Piron, M. (1995), Statisitique exploratoire multidimensionnelle, Dunod, Paris.

§ Lebart, L., Morineau, A., Lambert, T. & Pleuvret, P. (1999), SPAD. Système Pour l’Analyse des Donèes, Paris. *http://www.spad.eu

§ R Development Core Team (2007a), R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna,

Austria

. ISBN 3-900051-07-0. *http://www.R-project.org