CARTOGRAFIADO DE DATOS. La Imagen de los datos permite brindar una representación de toda la estructura de la información en un sólo gráfico, aunque estos datos sean numéricos, alfanuméricos o textuales, precisos o imprecisos. Además permite, visualizar las relaciones multidimensionales que puedan existir entre ellos, permitiendo brindar un diagnóstico por imagen, una rápida y completa comunicación e interpretación de la información contenida en los datos.

martes, 3 de noviembre de 2009

FactoClass de R


Combinación de Métodos Factoriales y Análisis de Cluster
La creación de paquetes portables facilita la labor académica cuando se utiliza R como lenguaje para la ejecución de los métodos estadísticos. Un paquete es útil aun cuando no se requiera la programación de nuevas funciones, ya que se pueden incluir tablas de datos y líneas de comandos para los talleres de un curso (Campo, 2007).
Para el análisis de una tabla de datos haciendo uso de métodos multivariados, Lebart et al. (1995) presenta una estrategia que consiste en realizar primero un análisis factorial según la naturaleza de los datos y luego una clasificación basada en un algoritmo mixto: clasificación jerárquica con el método de Ward y agregación alrededor de centros móviles (K-medias). Finalmente se obtiene una partición del conjunto de datos y la caracterización de cada una de las clases, según las variables activas e ilustrativas, ya sean cuantitativas o cualitativas. Para la caracterización de las clases se utilizan los valores test, que son índices descriptivos construidos siguiendo la metodología de pruebas de hipótesis, pero sin el objetivo de hacer inferencias. La ordenación de los valores test dentro de cada clase permite obtener las variables continuas que la caracterizan positivamente, en el sentido de que la media de la clase es suficientemente mayor de la media global, o negativamente cuando la media de la clase es inferior. Para las categorías de variables nominales, la ordenación permite obtener aquellas categorías cuya proporción dentro de la clase se diferencia lo suficiente de la proporción global, ya sea porque es mayor (valor test positivo) o menor (valor test negativo).
   La utilización de las coordenadas factoriales permite tener un marco común en el proceso de formación de conglomerados. Para el proceso de clasificación el análisis factorial previo se constituye en un pretratamiento, que transforma los datos originales en variables continuas no correlacionadas. Tomar todos los factores para la formación de conglomerados es equivalente a efectuar una clasificación de las filas de la tabla de datos utilizando las variables originales. Tomar menos factores implica realizar un filtrado: se supone que los ejes utilizados para la clasificación tienen la información relevante y que los desechados se deben a las fluctuaciones aleatorias que constituyen el ruido. El diagrama de valores propios orienta la decisión del número de ejes que se utilizan en la clasificación. Algunas veces, sobre todo en tablas pequeñas, se usan todos los ejes. (Campo, 2007).
  El método de Ward utiliza la distancia entre clases que cumple con el objetivo de unir, en cada paso del proceso de aglomeración, las dos clases que incrementen menos la inercia intraclases.
  El algoritmo K-medias para la obtención de una partición directa de un conjunto de “individuos” por variables cuantitativas requiere el número de clases por obtener y de puntos iniciales para cada una de ellas. La propuesta de Lebart et al. (1995) es utilizarlo para obtener una partición que minimice la inercia intraclases. Esto se logra localmente (depende de los puntos iniciales) usando la distancia euclidiana canónica entre los individuos y los centros móviles utilizados para la agregación. En cada paso del algoritmo se actualizan los centros móviles calculando los centros de gravedad de la partición obtenida del paso anterior.
  Para seleccionar las variables continuas o las categorías de las variables nominales más características de cada clase, se mide la desviación entre los valores relativos a la clase y los valores globales, utilizando los valores test.

Sintaxis del commando en R:
FactoClass( dfact, metodo, dfilu = NULL , nf = 2, nfcl = 10, k.clust = 3,
scanFC = TRUE , n.max = 5000 , n.clus = 1000 ,sign = 2.0,
conso=TRUE , n.indi = 25 )
print.FactoClass(x, ...)
analisis.clus(X,W)
En el paquete de R FactoClass (Campo, 2007), se implementa la estrategia descrita en Lebart et al. (1995), que combina métodos factoriales con análisis de conglomerados, en la exploración multivariada de tablas de datos. FactoClass es una función que conecta a las funciones de ade4 (Chessel et al. 2004) para realizar el análisis factorial de los datos y de stats para el análisis de conglomerados. Funciones complementarias que, incluyendo para producir salidas en formato L ATEX1, utilizando el paquete xtable (Dahl 2006).

Argumentos:
dfact
Objeto de la clase data.frame, Con los datos de las variables activas.
metodo
Función de ade4 para análisis factorial,
dudi.pca, Análisis de Componentes Principales;
dudi.coa, Análisis de Correspondencias;
dudi.acm, Análisis de Correspondencias Múltiples
witwit.coa, Análisis de la correspondencia interna;...
dfilu
Variables ilustrativas (por defecto NULL).
nf
Número de ejes a utilizar en el análisis factorial (por defecto 2).
nfcl
Número de ejes a utilizar en la clasificación (por defecto 10).
k.clust
Número de clases para trabajar (por defecto 3).
scanFC
Si es cierto, pide en la consola los valores nf, nfcl y k.clust
n.max
si rowname(dfact)> = n.max, antes realiza k-means (por defecto 5000)
n.clus
si rowname(dfact)> = n.max, antes realiza k-means con n.clus grupos (por defecto 1000)
sign
Valor umbral de prueba para demostrar las características y modalidades de las variables.
conso
proceso de consolidación de la clasificación (por defecto TRUE)
n.indi
Número de los índices para dibujar en el histograma (por defecto 25).
x
objeto de la clase FactoClass
X
coordenadas de los elementos de una clase
W
ponderaciones de los elementos de una clase
...
FactoClass utiliza el paquete estadístico ade4 (Chessel et al. 2004) para realizar el análisis factorial de los datos. Estas funciones retornan un objeto de tipo dudi con los valores y vectores propios y las coordenadas factoriales de las filas y columnas. Las demás ayudas a la interpretación se obtienen con la función inertia.dudi.
Las funciones dudi de ade4 reciben los datos en un objeto data.frame y utlizan todas las columnas como activas. El paquete ade4 tiene varias funciones para obtener los planos factoriales; si embargo en FactoClass se incluye la función planfac que recibe un objeto dudi y produce un plano factorial similar a los del paquete ade4.
La función ward.cluster transforma la distancia euclidiana en distancia de Ward y llama la función hclust del paquete básico stats. En ward.cluster se incluye una gráfica de los índices de nivel para facilitar la decisión de cuántas clases seleccionar para la partición.
La función kmeans de stats no maneja pesos distintos para las filas. Estos pesos influyen en los centros de gravedad y en las inercias intra de las clases. Se modificó (Campo, 2007) esta función para incluir los pesos de las filas y obtener las inercias intra clases; se nombra kmeansW. En su opción por defecto la función kmeans utiliza el algoritmo de Hartigan & Wong (1979).
Para la caracterización de las clases, se incluye la función cluster.carac, donde se calculan los valores test y se retorna un objeto list con información similar a la que se obtiene en los programas SPAD (Lebart et al. 1999) y DTM (Lebart 2007).
La función analisis.clus calcula las características geométricas de cada clase: el tamaño, la inercia, el peso y el cuadrado de la distancia de origen.
Para impresión en formato de látex ver FactoClass.tex ()
Para dibujar planos factorial ver con el grupo plotFactoClass (), recibe un objeto de tipo FactoClass y produce el plano factorial solicitado.

Objeto de la clase FactoClass:
dudi
objeto de la clase dudi de ade4 con las especificaciones del análisis factorial
nfcl
número de ejes seleccionados para la clasificación
k
número de clases
indices
tabla de los índices obtenidos mediante el método de WARD
cor.clus
coordenadas de los grupos
clus.summ
resumen de los grupos
cluster
vector que indica el grupo de cada uno de los elementos
carac.cate
caracterización del grupo por variables cualitativas
carac.cont
caracterización del grupo por las variables cuantitativas
carac.frec
caracterización del grupo por las variables frecuencia activa

El término clasificación se utiliza como sinónimo de análisis o formación de conglomerados o clasificación no supervisada. En ningún momento hace referencia a la clasificación supervisada o discriminación

Ejemplos [Package FactoClass version 0.7.1
# El análisis de clusters con el Análisis de Correspondencias
data(ColorAdjetive)
FC.col <-FactoClass(ColorAdjetive, dudi.coa)
6
10
5
FC.col
FC.col$dudi
# El análisis de clusters con el Análisis de Correspondencias Múltiples
data(BreedsDogs)
BD.act <- BreedsDogs[-7] # active variables
BD.ilu <- BreedsDogs[7] # ilustrative variables
FC.bd <-FactoClass( BD.act, dudi.acm, k.clust = 4,scanFC = FALSE, dfilu = BD.ilu, nfcl = 10)
FC.bd
FC.bd$clus.summ
FC.bd$indices

Autores
  • Pedro Cesar del Campo {pcdelcampon@unal.edu.co},
  • Campo Elías Pardo mailto:%7Bcepardot@unal.edu.co} {http://www.docentes.unal.edu.co/cepardot},
  • Mauricio Sadinle {msadinleg@unal.edu.co}

Referencias
El paquete FactoClass se instala en R (versión 2.4.1 en adelante) a partir del zip disponible en la página: http://www.docentes.unal.edu.co/cepardot/docs/
§ Campo Elías Pardo & Pedro César Del Campo, Combinación de métodos factoriales y de análisis de conglomerados en R, Revista Colombiana de Estadística 30 (2007) 231–245
§ Chessel, D., Dufour, A. B. & Thioulouse, J. (2004), ‘The ade4 Package - I: One table Methods’, R News 4(1), 5–10.
§ Dahl, D. B. (2006), xtable: Export Tables to LaTeX or HTML. David B. Dahl with contributions from many others. R package version 1.4-2
§ Lebart, L. (2007), ‘DTM. Data and Text Mining’, Software. *http://ses.enst.fr/lebart/
§ Lebart, L., Morineau, A. & Piron, M. (1995), Statisitique exploratoire multidimensionnelle, Dunod, Paris.
§ Lebart, L., Morineau, A., Lambert, T. & Pleuvret, P. (1999), SPAD. Système Pour l’Analyse des Donèes, Paris. *http://www.spad.eu
§ R Development Core Team (2007a), R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. *http://www.R-project.org